Baixe o app para aproveitar ainda mais
Prévia do material em texto
Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 1 UNIVERSIDADE ZAMBEZE FACULDADE DE CIÊNCIAS AGRÁRIA Bioestatística (BIES) 2o Ano - 3o Semestre, 2018 INTRODUÇÃO Estatística é uma ciência que estuda métodos de coleta, organização, resumo, apresentação, análise e interpretação de dados, para permitir tirar conclusões válidas e tomar decisões credíveis. Os dados estatísticos são factos ou informações que são úteis ou de interesse ao pesquisador para análises estatísticas. A investigação estatística e a análise dos dados se subdividem em duas grandes categorias sendo estatística descritiva e estatística analítica ou inferencial. Métodos Estatísticos O método estatístico é um processo seguido para se obter, apresentar e analisar características ou valores numéricos para uma melhor tomada de decisão em situações de incerteza. i. Definição do Problema: Nesta fase deve conhecer o problema a ser pesquisado, elaborar as perguntas para as quais quer que sejam respondidas com a sua pesquisa. Assim pode se guiar com a pergunta “ O que pesquisar? ”. ii. Planificação da pesquisa: Nesta fase deve saber claramente como a pesquisa será conduzida. Deve decidir se usará a população ou apenas uma amostra da população. Assim pode se guiar com a pergunta “ Como pesquisar? ”. iii. Coleta de dados: Esta fase envolve obter informações de acordo com o que foi planificado. Assim pode se guiar com a pergunta “ O que coletar? ”. iv. Crítica dos dados: Essa fase é essencial para saber como anda a sua pesquisa. Deve observar criticamente os dados coletados, para que, se for detetctado algum erro, o mesmo não seja repetido nas futuras coletas. Pode se guiar com a pergunta “ Os dados estão coerentes? ”. v. Análise e interpretação dos dados: Finalmente, é nesta fase que deve descrever, processar e analisar os dados coletados para tirar conclusões, isto é, responder o problema que foi inicialmente identificado ou a pergunta inicial. Biosetatística é a aplicação dos métodos estatísticos para a resolução de problemas biológicos. Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 2 Análise de Dados Análise de dados é o processo de coleta e organização dos dados de forma a descobrir ou tirar informação útil dos mesmos. Análise de dados ajuda sugerir conclusões e tomada de decisões. Por isso, o propósito principal de análise de dados é olhar para o que os dados estão tentando dizer ao pesquisador. Tipos de Análise de Dados No geral, existem dois tipos de análise de dados nomeadamente: Análise descritiva e inferencial. Análise Descritiva Refere-se a descrição dos dados a partir de uma certa amostra. Isto é, resume os dados e descreve as características das amostras. O exemplo é estatística descritiva. Classificação de Análise Descritiva a) Distribuição de frequência: é o arranjo sistemático de dados em tabelas ou gráficos de acordo com frequências. Dados em distribuições de frequência podem ser agrupados ou não agrupados. b) Medidas de tendência central: são medidas estatísticas que descrevem a média dos valores de um conjunto de dados. Alguns tipos de medidas de tendência central são: Moda, Mediana e Média. c) Medidas de variabilidade ou dispersão: são medidas que mostram o quanto os dados em uma distribuição se diferem ou assemelham um ao outro. Alguns tipos de medidas de variabilidade são: Variância, Desvio Padrão, Desvio Médio e Intervalo Interquartil. d) Estatística descritiva bivariada: que refere a análise simultânea de duas variáveis para estudar as relações entre elas. Alguns tipos de estatísticas descritivas bivariadas são: Tabelas de contigência ou tabelações cruzadas, covariância e correlação. Análise Inferencial Refere-se ao uso de testes estatísticos, para testar se relações entre variáveis são ou não significativas ou para obter suporte estatístico para aceitar ou rejeitar as hipóteses. O exemplo é estatística inferencial. Aplicação de Análise Inferencial Alguns testes estatísticos usados na análise inferencial são: i) Teste Z – usado para comparar as médias de populações quando a variância da populaçnão é conhecida e o tamanho da amostra é grande. Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 3 ii) Teste T de Student – usado para comparar as médias de populações quando a variância da populaçnão é desconhecida e o tamanho da amostra é pequeno. iii) Teste de Qui-Quadrado - usado em estimação assim como no teste de hipóteses relacionados com a variância da população. iv) Teste F (Anova) – usado para comparar duas variâncias populacionais. É a base da ANOVA. Inferência / Conclusão Estatística Uma conclusão estatística é uma estimativa, uma predição, uma decisão, ou uma generalização aproximadamente a população baseada em informação contida em uma amostra. ESTATÍTSICA DESCRITIVA A estatística descritiva envolve o uso de gráficos, quadros tabelas e o cálculo de várias medidas estatísticas para organizar e resumir informação sem tirar conclusões. Estatísticas descritivas ajudam reduzir nossa informação a um tamanho manejável e pór em foco. Isto é, estatística descritiva são valores numéricos obtidos da amostra que dão significado aos dados coletados. Exemplo: A compilação de números de novos ingressos e rendimentos académicos médios anuais na FCA. Este dados estatísticos obtidos nos permitem comparar o desempenho da FCA para saber se está a melhorar ou não. 1. Coleta de Dados Um dos primeiros problemas que os estatísticos encarram é obter os dados. As conclusões que nós fazemos dependem criticamente dos dados que nós coletamos e usamos. Colecção de dados envolve os passos importantes seguintes: 1. Defina os objectivos do problema e procede para o experimento ou pesquisa. 2. Defina variáveis ou parámetros de interesse. 3. Defina os procedimentos de colecta de dados e técnicas de medição. Isto inclui procedimentos de amostra, tamanhos de amostra e dispositivos de medição de dados (inquérito, telefone, entrevista, etc). Exemplo: Por algumas razões podemos estar interessados em estimar o investimento médio de machambas em uma certa comunidade. Neste caso, o parâmetro de interesse é o investimento médio de uma machamba típica na comunidade. Para adquirir os dados, nós podemos enviar um inquiridor ou podemos administrar uma entrevista telefonica. Uma vez tendo os dados, podemos primeiro querer representar os dados em forma de um gráfico ou tabela para melhor entender o seu comportamento Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 4 de distribuição. Então usaremos técnicas analíticas apropriadas para calcular o parâmetro (s) de interesse, neste caso o investimento médio de machambas. CONCEITOS BÁSICOS População População é a colecção ou conjunto de todos objectos ou medidas que são de interesse ao collector ou pesquisador. Exemplo: Suponha que nós desejamos estudar as alturas de todos os estudantes da cadeira de bioestatística na FCA. A população será o conjunto das alturas medidas de todos os estudantes de bioestatística na FCA. A população não é o conjunto de todos estudantes da cadeira de bioestatística na FCA. Amostra Amostra é um subconjunto de dados seleccionados de uma população. O tamanho de uma amostra é o número de elementos nela existentes. Exemplo: Suponha que desejamos calcular a porcentagem de sementes defeituosas produzidas numa fábrica durante uma determinada semana (cinco dias) examinando 20 sementes produzidas por dia. As sementes serão examinadas cadadia em tempos escolhidos aleatoriamente. Neste caso “todas sementes produzidas durante a semana” é a população e as (100) sementes seleccionadas durante cinco dias constituem uma amostra. Dados Dados são uma colecção de factos, como valores ou números, medidas, palavras, observações ou mesmo descrições de coisas. Tipos de Dados Os dados podem ser classificados de várias maneiras. Nesta secção vamos ver duas classificações, uma geral e outra baseada em período de coleta. Classificação Geral Geralmente, os dados são divididos em dois grupos sendo Qualitativos e Quantitativos. i) Dados Qualitativos ou Categóricos São dados que tratam de descrições, qualidades ou características de elementos em pesquisa. Dados qualitativos podem ser observados mas não medidos, como cheiro, gosto, textura, paladar, cor, beleza, aparência, etc. Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 5 Exemplos: O estado matrimonial: Casado, Solteiro. O grupo sanguíneo: O, A, B, AB, etc. Cor de cabelos: Preta, Castanha, Branca, etc. Género: Masculino, Feminino. Local de nascimento: Angónia, Tsangano, Beira, Tete, etc. Resposta a uma terapia particular: Nenhuma melhoria, Melhoria parcial, Melhoria completa. Dados qualitativos ou categóricos ainda podem ser classificados em Dados Nominais e Dados Ordinais. Dados Categóricos Nominais têm grupos de dados que não têm uma ordem específica. Um exemplo são províncias (Tete, Manica, Sofala, etc.), nomes de pessoas (Maria, João, Pedro, etc.), cursos através de nomes (Contabilidade, Agropecuária, Alimentar, etc.) Estes não precisam de ser colocados em qualquer ordem. Dados Categóricos Ordinais têm grupos listados em uma ordem natural específica. Neste tipo a ordem é importante e pode ser crescente ou decrescente. Exemplos são nível de rendimento (alto, médio, baixo) em ordem decrescente, nível académico (básico, médio, licenciatura, mestrado, doutoramento) em ordem cerscente. ii) Dados Quantitativos ou Numéricos São dados que tratam de números ou quantidades de elementos em pesquisa. Dados qualitativos podem ser medidos, como comprimento, altura, área, volume, temperatura, peso, velocidade, humidade, idade, etc. Exemplo: O número de acidentes de carros por mês nas diferentes estradas de Tete, exemplo 25. O número de novos ingressos na fca em 2017, exemplo 120. A altura média de estudantes da fca, exemplo 2.1 metros. A área da machamba da fca, exemplo 150 metros quadrados. A quantidade de adubo usado na fca em 2018, exemplo 200 kg. A temperatura média mínima do distrito de Angónia, exemplo 10 graus centígrados Dados quantitativos ou numéricos ainda podem ser classificados em Dados Contínuios e Dados Discretos. Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 6 Dados Quantitativos Contínuos São os dados referentes às variáveis contínuas que podem assumir qualquer valor num intervalo contínuo e resultam das medidas, como peso de bebês recém-nascidos por dia no HRA (ex: 5), a quantidade de adubo usado na fca em 2018 (ex: 200 kg), etc. Dados Quantitativos Discretos São dados referentes às variáveis discretas que assumem valores inteiros e resultam de uma contagem de elementos, número de bovinos na fca (ex: 25), número de novos ingressos na fca em 2018 (ex: 120), etc. Classificação de Dados Quanto ao Período de Coleta i) Dados de Corte Transversal Um conjunto de dados de corte transversal consiste em uma amostra de uma unidade de análise, tomada em um determinado ponto no tempo. Exemplo: Resultados Académnicos das Faculdades da Unizambeze em 2016 Local Percentagem Angónia 50% Tete 70% Chimoio 55% Beira 69% ii) Dados de Séries de Tempo Um conjunto de dados de séries de tempo consiste em observações sobre uma ou mais variáveis ao longo do tempo. Resultados da FCA entre 2012 a 2016 Curso 2012 2013 2014 2015 2016 Eng. Alimentar 50% 55% 60% 49% 80% Eng. Agropecuaria 55% 50% 65% 50% 70% iii) Dados de Cortes Transversais Agrupados Alguns conjuntos de dados têm características de corte transversal e de séries de tempo. Um mesmo conjunto de variáveis é colectado em diferentes períodos do tempo, em distintas amostras aleatórias de uma mesma população. Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 7 TEORIA DE AMOSTRAGEM Amostra Aleatória Simples Uma amostra selecionada de tal forma que cada elemento da população tenha uma oportunidade igual de ser escolhido é chamada amostra aleatória simples. Exemplo: Para uma lotaria da so jogo, 52 bolas idênticas com um número de 1 a 52 pintadas em cada bola são colocadas em um recipiente de plástico transparente. Uma máquina completamente mistura as bolas e, em seguida, seis são selecionadas. Os seis números nas bolas escolhidas são os números de lotaria que foram selecionados por um simples procedimento de amostragem aleatória. Amostra Sistemática é uma amostra em que cada elemento K no conjunto de amostragem é selecionado após um início aleatório adequado para o primeiro elemento. Assim, listamos os elementos da população em alguma ordem (digamos alfabética) e escolher a fracção de amostragem desejada. Etapas para Seleccionar uma Amostra Sistemática 1. Enumere os elementos da população de 1 a N. 2. Decide sobre o tamanho da amostra, digamos n, que precisa. 3. Escolha K = N / n. 4. Selecione aleatoriamente um número inteiro entre 1 e K. 5. Em seguida, tire cada elemento K. Exemplo: Se a população tem 1000 elementos dispostos em alguma ordem e decidimos amostrar 10%. Como Fariamos? Solução Enumere os elementos da população, obtemos N = 1000. Decide o tamanho da amostra, digamos n = 100. K escolhido será 𝐾 = 𝑁 𝑛⁄ = 1000 100⁄ = 10 incluso. Aleatoriamente selecione um número inteiro no intervalo 1 a K, digamos 6. Tire cada elemeno K da população, Assim teremos: 6, 16, 26, 36, …, 996. Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 8 Amostra Estratificada Uma amostra esratifacada é obtida dividindo em subgrupos independentes (estratificando) a informação sobre a amostra baseada em algum factor ou factores e depois, selecionar alguns elementos de cada um dos subgrupos/estratos. Aqui, uma população com N elementos é dividida em m subpopulações. Uma amostra é independentemente tirada de cada subpopulação. O tamanho de cada subpopulação e tamanhos de amostra em cada subpopulação podem variar. Passos Para Selecionar uma Amostra Estratificada 1. Decide os factores de estratificação relevantes (sexo, idade, renda, etc.). 2. Divida a população inteira em estratos (subpopulações) baseado nos critérios de estratificação. Tamanhos de estratos podem variar. 3. Selecione o número requerido de unidades usando amostra aleatória simples ou amostra sistemática de cada subpopulação. O número requerido pode depender dos tamanhos de subpopulações. Exemplo 1: Numa população de 1000 estudantes de uma certa comunidade universitária, há 600 homens e 400 mulheres. Podemos os dividir em estratos baseado na condição financeira dos pais deles, como na tabela abaixo, Condição Financeira dos Pais Homens Mulheres Pobres Classe média Ricos 120 150 330 240 100 60 Exemplo 2: Suponha que decidimos criar amostra de 100 crianças da população de 1000 (isto é, 10% da população) do exemplo anterior. Também escolhemoscriar amostra de 10% de cada uma das categorias. Por exemplo, poderíamos escolher 12 (10% de 120) homens pobres; 6 (10% de 60 mulheres ricas) e assim sucessivamente. Isto produz a tabela abaixo. Esta amostragem particular é chamada amostragem proporcional estratificada. Condição Financeira dos Pais Homens Mulheres Pobres Classe média Ricos 12 15 33 24 10 6 Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 9 Amostra por Áreas de Agrupamento (Amostra por Conivência) A unidade de amostragem contém grupos de elementos chamados áreas ao invés de elementos individuais da população. Esta área de agrupamento é um grupo intacto naturalmente disponível no campo. Ao contrário da amostra estratificada onde os estratos são criados pelo investigador baseado em variáveis de estratificação, as áreas de agrupamentos existem naturalmente e não são formados pelo investigador para coleção de dados. Exemplo: Suponha que desejamos selecionar uma amostra de cerca de 10% de todas as crianças da 5a classe do município da Vila de Ulónguè. Aleatoriamente vamos selecionar 10% das escolas primárias assumidas terem aproximadamente o mesmo número de alunos da 5a classe e depois selecionar todas as crianças da 5a classe destas escolas. Este é um exemplo de amostra de área, sendo cada escola primária que foi selecionada, uma área. Erros em Dados de Amostra Independentemente do tipo de esquema usado. as observações de amostra são propensas a várias fontes de erros que podem afectar seriamente as conclusões sobre a população. Algumas fontes de erro podem ser controladas. Porém, outras fontes podem ser inevitáveis porque elas são inerentes na natureza do processo de amastragem. Por conseguinte, é necessário entender os tipos diferentes de erros para uma própria interpretação e análise dos dados de amostra. Classificação de Erros Os erros podem ser classificados em: Provenientes da amostragem. Não provenientes da amostragem. Erros provenientes da amostragem surgem porque a amostra não é representante exacta da população. Erro de amostragem é devido às diferenças entre as características da população e as da amostra da população. Erros não provenientes da amostragem surgem na coleção, gravação e processamento de dados da amostra. Por exemplo, tais erros poderiam acontecer como resultado de preconceito em selecção de elementos da amostra, perguntas de pesquisa pobremente projectadas, medida e erros na gravação, respostas incorrectas, ou falta de respostas de indivíduos selecionados da população. Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 10 REPRESENTAÇÃO GRÁFICA DOS DADOS A fonte de nosso conhecimento estatístico está nos dados. Uma vez obtidos os valores dos dados, uma das formas de se familiarizar com eles é apresenta-los em tabelas ou graficamente. Gráficos e quadros são ferramentas muito importantes em estatística, porque comunicam visualmente a informação. As apresentações gráficas mais comuns são a tabela de freqüência, gráfico circular, gráfico de barras, gráfico de Pareto e histograma. Gráfico de Barra É um gráfico de barras cujas alturas representam as frequências (ou frequências relativas) das respectivas categorias. Exemplos: Os dados do Quadro abaixo representam as percentagens de aumentos de preços de alguns bens e serviços de consumo para o período de Dezembro de 2010 a Dezembro de 2016 na Vila de Ulónguè. Construa um gráfico de barras para esses dados. Cuidados médicos (CM) Electricidade (EL) Renda (RN) Comida (CO) Produtos básicos (PB) Cerveja (CE) 83.3% 22.1% 43.5% 41.1% 35.8% 21.1% Solução Gráfico de Pareto Para uma representação gráfica da importância relativa de diferentes factores em estudo, pode-se usar o gráfico de Pareto. É um gráfico de barras com a altura das barras proporcional à contribuição de cada factor. As barras são criadas da categoria mais numerosa para a categoria menos numerosa, Um gráfico de Pareto ajuda a separar significativamente alguns factores que têm maior influência nos dados. Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 11 Exemplo: Para os dados do exemplo anterior, construa um gráfico de Pareto. Solução - Primeiro, reorganiza os dados em ordem decrescente. Em seguida, crie um gráfico de Pareto representando as barras da categoria mais numerosa para a categoria menos numerosa. Vilfredo Pareto (1848-1923), economista e sociólogo italiano, estudou as distribuições de riqueza em países diferentes. Concluiu que cerca de 20% das pessoas controlavam cerca de 80% da riqueza. Esta mesma distribuição tem sido observada em outras áreas, como a melhoria da qualidade: 80% dos problemas geralmente decorrem de 20% das causas. Este fenômeno tem sido chamado Pareto efeito ou regra 80/20. Os gráficos de Pareto são usados para mostrar o princípio de Pareto, organizando dados para que os poucos factores vitais que estão causando a maioria dos problemas se revelam. Geralmente, os gráficos de Pareto são usados na tomada de decisões de negócios como uma ferramenta de solução de problemas e estatística que classifica áreas problemáticas, ou fontes de variação, de acordo com sua contribuição ao custo ou a total variação. Gráficos Poligonais Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 12 Gráfico Circular Um círculo dividido em sectores que representam as percentagens de uma população ou amostra que pertence a diferentes categorias é chamado Gráfico Circular. Gráficos circulares são especialmente úteis para a apresentação de dados categóricos. Os sectores do gráfico são criados de modo que tenham uma área proporcional à frequência. O gráfico inteiro representa todos os dados, enquanto que cada sector representa uma classe diferente ou grupo dentro do todo. Assim, podemos observar o gráfico e identificar as várias percentagens de interesse e como elas se comparam entre si. Exemplo: As percentagens combinadas de emissões de monóxido de carbono (CO) e ozono (O3) provenientes de diferentes fontes são apresentadas na tabela abaixo, Transportação Processo Industrial Combustíveis Lixo Sólido Outras Fontes 63% 10% 14% 5% 8% Construa gráfico de Pizza. Solução Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 13 Distribuição de Frequência (Tabelas de Frequência) O arranjo de dados em forma de tabelas de acordo com frequências chama-se distribuição de frequência. Dados em distribuições de frequência podem ser agrupados ou não agrupados. Dados Não Agrupados Neste caso cada dado é particularmente atribuido sua própria freqüência ao formular as distribuições de frequência. Esta técnica é satisfatória quando houver poucos dados que repitem várias vezes. Exemplo: Os dados seguintes foram obtidos quando um dado foi lançado 30 vezes. Use os dados obtidos para construir uma tabela de frequência. Solução A tabelaa de frequência é construída contando observações ou números repetidos, em ordem para saber quantas vezes uma certa observação aparece no conjunto de dados. A tabela será: Número Contagem Freqência 𝒇𝒊 Frequência Relativa 𝒇𝒊 𝒏 Percentagem (%) Frequência Relativa Acumulada ∑ 𝒇𝒌 𝒏 𝒊 𝒌=𝟏 1 5 5 30⁄ 16.675 30⁄ 2 5 5 30⁄ 16.67 10 30⁄ 3 8 8 30⁄ 26.67 18 30⁄ 4 5 5 30⁄ 16.67 13 30⁄ 5 //// 4 4 30⁄ 13.33 27 30⁄ 6 /// 3 3 30⁄ 10 30 30⁄ Total ------------------ 30 30 30⁄ 100 ------------------- O Histograma Um histograma para dados não agrupados é um gráfico no qual os dados são marcados no eixo horizontal e as frequências, frequências relativas, ou porcentagens são representadas pelas alturas no eixo vertical. Em um histograma, as barras são adjacentes uma a outra sem qualquer espaço. Histogramas podem ser usados para dados quantitativos. Um histograma permite visualisar o local de média, modas de dados e as variações nos dados. Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 14 O histograma do exemplo anterior será: Dados Agrupados Tabela de frequencia para dados agrupados divide um conjunto de dados em um número adequado de categorias chamadas Classes. Ao invés de apresentar o conjunto inteiro de dados, a tabela de frequência essencialmente apresenta só uma contagem daquelas observações que estão relacionadas com cada classe. Assim que os dados são resumidos em forma de tabela de frequências, a representação gráfica pode ser dada através de gráficos de barras, gráficos circulares e histogramas. Os dados apresentados em forma de tabela de frequências são chamados dados agrupados. A tabela de frequência é criada da seguinte maneira: Escolher um número específico de classes nas quais os dados serão colocados. As classes podem ter intervalos de igual ou diferentes larguras. O centro de cada classe é chamado Marca da classe e os pontos extremos são chamados Limites da classe. Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 15 Definição: Seja 𝑓𝑖 a frequência da classe 𝑖 e seja 𝑛 a soma de todas as frequências, então: A Frequência Relativa da classe 𝑖 é definida pela razão 𝒇𝒊 𝒏 A Frequência Relativa Acumulada da classe 𝑖 é definida como ∑ 𝑓𝑘 𝑛 𝑖 𝑘=1 Classes com Mesma Largura Exemplo 1: Considere os dados da tabela abaixo. Construa a tabela de Frequência, Freqûencia Relativa e Freqûencia Relativa Acumulada. Solução A partir dos dados fornecidos: n = 30 observações, onde as observações limites são 1150 e 865. Escolher um número específico de classes: Assim seja 6 o número escolhido de classes, com larguras iguais de 50. Então a tabela será: Classe Contagem Freqência 𝒇𝒊 Frequência Relativa 𝒇𝒊 𝒏 Frequência (%) Frequência Relativa Acumulada ∑ 𝒇𝒌 𝒏 𝒊 𝒌=𝟏 850 – 900 //// 4 4 30⁄ 13.33 4 30⁄ 900 – 950 // 2 2 30⁄ 6.67 6 30⁄ 950 – 1000 5 5 30⁄ 16.67 11 30⁄ 1000 – 1050 6 6 30⁄ 20 17 30⁄ 1050 – 1100 /// 3 3 30⁄ 10 20 30⁄ 1100 – 1150 10 10 30⁄ 33.33 30 30⁄ Classes com Diferentes Larguras Se dados tiverem alguns valores extremos, as técnicas de classes com mesma largura geralmente não podem ser aplicáveis. Neste caso só valores que estão mais próximos uns aos outros são considerados primeiro, e os valores extremos podem ser agrupados em uma classe. Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 16 Exemplo 2: As quantidades de trinta sementes processadas em um dia numa fábrica de processamento de sementes foram registadas como segue: Construa a tabela de Frequência, Freqûencia Relativa e Freqûencia Relativa Acumulada, com 5 classes. Solução A partir dos dados fornecidos: n = 30 observações, onde as observações limites são 8.9 e 104. Assim usando 5 como número de classes, com largura inicial de 11. A tabela será: Classe Contagem Freqência 𝒇𝒊 Frequência Relativa 𝒇𝒊 𝒏 Frequência Relativa Acumulada ∑ 𝒇𝒌 𝒏 𝒊 𝒌=𝟏 8.02 – 19.02 11 11 30⁄ 11 30⁄ 19.02 – 30.02 /// 3 3 30⁄ 14 30⁄ 30.02 – 41.02 7 7 30⁄ 21 30⁄ 41.02 – 52.02 //// 4 4 30⁄ 25 30⁄ 52.02 – 104.02 5 5 30⁄ 30 30⁄ Histogramas para Dados Um histograma é um gráfico no qual classes são marcadas no eixo horizontal e as frequências, frequências relativas, ou porcentagens são representadas pelas alturas no eixo vertical. Em um histograma, as barras são adjacentes uma a outra sem qualquer espaço. Histogramas podem ser usados para dados quantitativos. Um histograma permite visualisar o local de média, modas de dados e as variações nos dados. Passos para Construção de Tabelas de Frequencias e Historgramas 1. Determine os valores máximo e mínimo de observações. 2. Selecione de 5 a 20 classes que em geral não são intervalos sobrepostos de comprimento igual, de modo que cubra a série inteira de dados. O objectivo é usar classes suficientes para mostrar a variação nos dados. A largura da classe calcula-se através da expressão, 𝐿 = Valor máximo − Valor mínimo Número de Classes Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 17 3. O primeiro intervalo deve começar um pouco abaixo do valor mínimo, e o último intervalo deve terminar um pouco acima do valor máximo. Os intervalos são chamados intervalos de classe e os limites são chmados limites de classe. A marca da classe é o ponto central de uma classe. 4. Nenhum dos valores de dados deve coincidir com os limites das classes. 5. Construa a tabela que lista os intervalos da classe, a tabulação do número de medições em cada classe, a frequência 𝑓𝑖 de cada classe e se necessário, a coluna com frequência relativa 𝑓𝑖 𝑛⁄ onde 𝑛 é o número total de observações. 6. Finalmente, desenhe barras em cada intervalo com alturas a representarem as frequências (ou frequências relativas). Exemplo: Considere os dados abaixo referenciando um certo tipo de impureza química medida em 25 amostras de sementes colectadas aleatoriamente de diferentes fábricas do país.. a) Construa a tabela de frequências, mostrando classes, frequências, frequências relativas e percentagens. b) Construa o histograma de frequência. Solução Número total de observaçoes n = 25, então seja 5 o número específico de classes escolhido; Valores máximo e mínimo nos dados são 35 e 11. Então, largura da classe é 𝐿 = 35−11 5 = 4.8 ≅ 5 . Assim o limite mínimo será escolhido como 10.5. com 5 classes onde cada uma tem largura 5, o limite máximo será 35.5. a) As classes formadas serão: Classe 1: 10.5 – 15.5 Classe 2: 15.5 – 20.5 Classe 3: 20.5 – 25.5 Classe 4: 25.5 – 30.5 Classe 5: 30.5 – 35.5 Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 18 Classes Intervalo de Classe Frequência 𝒇𝒊 Frequência Relativa 𝒇𝑹 Percentagem % 1 10.5 – 15.5 3 3 25⁄ 12 2 15.5 – 20.5 6 6 25⁄ 24 3 20.5 – 25.5 8 8 25⁄ 32 4 25.5 – 30.5 5 5 25⁄ 20 5 30.5 – 35.5 3 3 25⁄ 12 b) Histograma de Frequência DESCRIÇÃO NUMÉRICA DOS DADOS Na secção anterior, analisamos algumas técnicas gráficas e tabulares para descrever um conjunto de dados. Nesta secção agora vamos considerar algumas características numéricas de um conjunto de medições. Suponha que temos uma amostra com valores 𝑥1, 𝑥2,. . . , 𝑥𝑛. Existem muitas características associadas a este conjunto de dados, por exemplo, a Tendência Central e a Variabilidade. Umamedida de tendência central é dada pela Média, Mediana e Moda da amostra, e a medida de dispersão ou variabilidade é normalmente dada pela Variância, Desvio Padrão, Desvio Médio, e Intervalo Interquartil da amostra. Medidas de Tendência Central Média, mediana e Moda são três grupos principais de medidas de tendência central ou algumas vezes chamadas medidas de média. Estas medidas podem ser determinadas para dados não agrupados e agrupados. Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 19 Dados não Agrupados Média Aritmética Sejam 𝑥1, 𝑥2,. . . , 𝑥𝑁 o conjunto de 𝑁 valores de uma população. A média aritémtica da população representada por 𝝁 é definida por, 𝝁 = 𝟏 𝑵 ∑𝒙𝒊 𝑵 𝒊=𝟏 Sejam 𝑥1, 𝑥2,. . . , 𝑥𝑛 o conjunto de 𝑛 valores de uma amostra. Então, a média aritémtica da amostra representada por 𝒙 é definida por, �̅� = 𝟏 𝒏 ∑𝒙𝒊 𝒏 𝒊=𝟏 Mediana Para um conjunto de dados, a Mediana é o número médio do conjunto de dados ordenados representada por 𝐌𝐝. Se o conjunto tem um número par de elementos, então a mediana é a média dos dois números médios. Isto é, a mediana toma a posição ( 𝒏+𝟏 𝟐 ) para número ímpar de observações e, se o conjunto tiver um número par de observações a mediana é a média de ( 𝒏 𝟐 ) 𝒆 ( 𝒏 𝟐 + 1) observações contando de ambos lados. Moda Moda é o dado ou valor que tem maior frequência ou que aparece mais vezes num conjunto ou numa distribuição, representada por 𝐌𝐨. Pode ser usado para determinar o resultado mais favorável de um determinado experimento e ajudar a decidir que medidas podem ser tomadas desse resultado. Se todos os valores de dados forem diferentes, isto é, não haja repetição, então por definição, o conjunto de dados não tem moda e chama-se amodal. Medidas de Dispersão ou Variabilidade As medidas de dispersão mostram como os dados se desviam da medida dada de média aritmética ou mediana. Essas medidas incluem intervalo, desvio absoluto médio, desvio padrão e desvio de quartil. A medida de variação mais utilizada é o desvio padrão da amostra, uma vez que desvio padrão da população não é facilmente obtido na prática. No entanto, essa medida não é adequada para dados com valores extremos ou discrepantes. Se os dados consistem em alguns valores extremos ou discrepantes, a medida apropriada seria o desvio de quartil e a mediana. O desvio absoluto médio raramente é usado para comparar a variação entre dois conjuntos de dados. Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 20 A Variância da população é dada por 𝝈𝟐 = 𝟏 𝑵 ∑(𝒙𝒊 − �̅�) 𝟐 𝑵 𝒊=𝟏 A Variância da amostra é dada por 𝑺𝟐 = 𝟏 (𝒏 − 𝟏) ∑(𝒙𝒊 − �̅�) 𝟐 𝒏 𝒊=𝟏 Desvio Padrão da população é definido por 𝝈 = √𝝈𝟐 = √ 𝟏 𝑵 ∑(𝒙𝒊 − �̅�)𝟐 𝑵 𝒊=𝟏 Desvio Padrão da amostra é definido por 𝑺 = √𝑺𝟐 = √ 𝟏 (𝒏 − 𝟏) ∑(𝒙𝒊 − �̅�)𝟐 𝒏 𝒊=𝟏 Desvio Médio Absoluto é dado por 𝑫𝑴 = 𝟏 𝒏 ∑|𝒙𝒊 − �̅�| 𝒏 𝒊=𝟏 As variâncias 𝜎2 e 𝑆2 e os desvios 𝜎, 𝑆 e 𝐷𝑀 são medidas de variabilidade ou "Dispersão" de valores de dados em torno da média da população e amostra, respectivamente. Maior a variação, mais é a propagação. Sempre 𝜎2, 𝑆2, 𝜎, 𝑆 e 𝐷𝑀 são positivos. Exemplo: Considere a amostra contendo o seguinte conjunto de dados: A = {4, 3, 6, 10, 7, 6}. Calcule a média, mediana, moda, variância, desvio padrão e desvio médio para esta amostra. Analise existência de quaisquer valores discrepantes nos dados. Média: �̅� = 1 𝑛 ∑𝑥𝑖 𝑛 𝑖=1 = 1 5 (4 + 3 + 6 + 10 + 7 + 6) = 1 6 × 36 = 6 Mediana: Organizaando os dados em ordem crescente: A = {3, 4, 6, 6, 7, 10}. Então 𝐌𝐝 = 6+6 2 = 6 Moda: O dado ou valor que tem maior frequência ou aparece mais vezes. 𝐌𝐨 = 6 Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 21 Variância: 𝑺𝟐 = 1 (𝑛 − 1) ∑(𝑥𝑖 − �̅�) 2 𝑛 𝑖=1 = 1 5 [(4 − 7.2)2 + (3 − 7.2)2 + (6 − 7.2)2 + (10 − 7.2)2 + (7 − 7.2)2 + (6 − 7.2)2] = 1 5 (10.24 + 17.64 + 1.44 + 7.84 + 0.04 + 1.44) = 1 5 × 38.64 = 7.728 ≅ 7.73 Desvio Padrão: 𝑺 = √𝑺𝟐 = √7.728 = 2.779 ≅ 2.79 Desvio Médio: 𝑫𝑴 = 𝟏 𝒏 ∑|𝒙𝒊 − �̅�| 𝒏 𝒊=𝟏 = 1 6 (|4 − 7.2| + |3 − 7.2| + |6 − 7.2| + |10 − 7.2| + |7 − 7.2| + |6 − 7.2|) = 1 6 (3.2 + 4.2 + 1.2 + 2.8 + 0.2 + 1.2) = 1 6 × 12.8 = 2.13 Intervalo Interquartil i) Amplitude Amplitude é a mais simples medida de dispersão. É definida como a diferença entre os valores máximo e mínimo no conjunto de dados. Isto é, a Amplitude é dada por, 𝑨 = 𝒗𝒍𝒎𝒂𝒙 − 𝒗𝒍𝒎𝒊𝒏. O coeficiente da amplitude será definida por: Coeficiente de Amplitude 𝐂 . 𝐀 = 𝒗𝒍𝒎𝒂𝒙 − 𝒗𝒍𝒎𝒊𝒏 𝒗𝒍𝒎𝒂𝒙 + 𝒗𝒍𝒎𝒊𝒏 Onde 𝑣𝑙𝑚𝑎𝑥 e 𝑣𝑙𝑚𝑖𝑛 são valores máximo e mínimo, respectivamente, no conjunto de dados. Exemplo 1: O total de 10 frangos são retirados do aviário da fca para pesagem diária como um dos meios de controlo. O peso ganho (gm) dos frangos é 10.5, 10.7, 10.3, 10.2, 10.9, 11, 11.1, 11.2, 10.3, 10.9. Determine a amplitude e o coeficiente de amplitude. Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 22 Solução Dados fornecidos: 10.5, 10.7, 10.3, 10.2, 10.9, 11, 11.1, 11.2, 10.3, 10.9. 𝑣𝑙𝑚𝑎𝑥 = 11.2 𝑒 𝑣𝑙𝑚𝑖𝑛 = 10.2, então Amplitude A = 𝑣𝑙𝑚𝑎𝑥 − 𝑣𝑙𝑚𝑖𝑛 = 11.2 − 10.2 = 1 Coeficiente de Amplitude C . A = 𝑣𝑙𝑚𝑎𝑥 − 𝑣𝑙𝑚𝑖𝑛 𝑣𝑙𝑚𝑎𝑥 + 𝑣𝑙𝑚𝑖𝑛 = 11.2 − 10.2 11.2 + 10.2 = 1 21.4 = 0.048 ii) Quartís Qartís são valores num dado conjunto ou distribuição que dividem os dados ordenados em quatro partes iguais. Cada conjunto de dados tem três quartís chamados quartil inferior, quartil médio e quartil superior. Quartil Inferior é o número médio da metade dos dados abaixo da mediana e o Quartil Superior é o número médio da metade dos dados acima da mediana. Os três quartís são denotados por: 𝑸𝟏 = Quartil Inferior → é o valor na posição 𝑛 + 1 4 𝑸𝟐 = 𝑴𝒅 = Quartil Médio → Mediana 𝑸𝟑 = Quartil Superior → é o valor na posição 𝑛 + 1 4 A diferença entre os quartis 𝑄3 e 𝑄1 é chamada intervalo interquartil (IIQ): 𝑰𝑰𝑸 = 𝑸𝟑 − 𝑸𝟏. Valores/dados discrepantes Extremo inferior = 𝑸𝟏 − 𝟏. 𝟓(𝑰𝑰𝑸) Extremo superior = 𝑸𝟑 + 𝟏. 𝟓(𝑰𝑰𝑸) Todos valores que estiverem abaixo do extremo inferior e acima do extremo superior são considerados valores discrepantes. Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 23 iii) Desvio Quartil Desvio quartil é a metade da diferença entre o quartil superior e o quartil inferior, representado por D. Q, assim, 𝐃.𝐐 = 𝑸𝟑 − 𝑸𝟏 𝟐 Coeficiente de Desvio Quartil É a medida relativa de desvio quartil que é dado por 𝐂𝐨𝐞𝐟𝐢𝐜𝐢𝐞𝐧𝐭𝐞 𝐝𝐞 𝐃 . 𝐐 = 𝑸𝟑 − 𝑸𝟏 𝑸𝟑 + 𝑸𝟏 Box Plot O box plot é uma ferramenta gráfica que representa a variação dos dados numéricos por meio de quartis, onde o eixo horizontal representa a variável e tem uma recta bigode (whisker) que estende- se verticalmente ou horizontalmente a partir da caixa, indicando a variabilidade fora do quartil inferior e superior. O Box Plot fornece informação sobre a localização, dispersão, assimetria e valores discrepantes numa distribuição de dados.O box plot foi introduzido por John Tukey em 1969, consequentemente também ficou conhecido como diagrama de caixa de Tukey. Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 24 Modelo de Box Plot Um box plot dá uma apresentação gráfica de dados usando cinco medidas: - Valor mínimo - Primeiro quartil Q1 - Mediana Q2 - Terceiro quartil Q3 - Valor máximo Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 25 Procedimento para construção do box plot 1. Organize e liste os dados fornecidos em ordem crescente. 2. Encontre valores mínimo e máximo dos dados. 3. Encontre a mediana Q2 e quartis inferior Q1 e superior Q3. 4. Desenhe uma recta real (horizontal ou vertical) estendendo-se o suficiente em ambas direcções para incluir todos os números nos dados, e marque Q1, Q2 e Q3. 5. Construa uma caixa rectangular (paralelo a recta real) que une Q1, Q2 e Q3 cujas extremidades inferior passa por Q1 e superior passa por Q3. 6. Desenhe um segmento de recta perpendicular dentro da caixa passando pela mediana Q2. 7. Estenda as rectas de cada margem da caixa (paralelo a recta real) para fora a observação mais distante que ainda esteja dentro de 1.5(IIQ) da extremidade correspondente. Estas rectas são chamadas bigodes (Whiskers). 8. Marque bolinhas não pintadas (ou asteriscos *) para identificar cada observação que cai entre 1.5(IIQ) e 3(IIQ) da extremidade mais próxima; estes são chamados discrepantes moderados. 9. Marque bolinhas pintadas carregadas para identificar cada observação que cai entre acima de 3(IIQ) da extremidade mais próxima; estes são chamados discrepantes extremos. Interpretação do Box Plot O grande objectivo do box plot é verificar a distribuição dos dados. O box plot nos fornece uma análise visual da posição, dispersão, simetria, caudas e valores discrepantes do conjunto de dados. Posição – Em relação à posição dos dados, observa-se a linha central do rectângulo que representa a mediana Q2. Dispersão – A dispersão dos dados pode ser representada pelo intervalo interquatil que é a diferença entre Q3 e Q1 (tamanho da caixa), ou ainda pela amplitude que é calculada da seguinte a partir de valor máximo – valor mínimo. Embora a amplitude seja de fácil entendimento, o intervalo interqual é uma estatística mais robusta para medir variabilidade uma vez que não sofre influência de valores discrepantes. Simetria – Um conjunto de dados que tem uma distribuição simétrica, terá a linha da mediana no centro do rectângulo. Quando a linha da mediana está próxima a Q1, os dados são assimétricos positivos e quando a posição da linha da mediana é próxima a Q3, os dados são assimétricos negativos. Note que a mediana é a medida de tendência central mais indicada quando os dados possuem distribuição assimétrica, uma vez que a média aritmética é influenciada pelos valores extremos. Caudas – As linhas que vão do rectângulo até aos valores discrepantes podem fornecer o comprimento das caudas da distribuição. Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 26 Valores discrepantes – No box plot, as observações são consideradas discrepantes quando estão abaixo ou acima do limite de detecção de discrepantes. Exemplo: Para os dados fornecidos abaixo, 5, 7, 229, 453, 12, 14, 18, 14, 14, 483, 22, 21, 25, 23, 24, 34, 37, 34, 49, 64, 47, 67, 69, 192, 125. a) Identifique quartis inferior, médio e superior e use-os para calcular o intervalo interquartil. b) Analise se existem alguns valores discrepantes c) Calcule o desvio de quartil e coeficiente de desvio de quartil. d) Construa o box plot e analise a simetria da distribuição dos dados. Solução Organizando os dados em ordem crescente: a) Identificação de quartís e cálculo de intervalo interquartil. 5, 7, 12, 14, 14, 𝟏𝟒, 𝟏𝟖⏟ , 21, 22, 23, 24, 25, 𝟑𝟒⏟ , 34, 37, 47, 49, 64, 𝟔𝟕, 𝟔𝟗⏟ , 125, 192, 229, 453, 483. Quartil Inferior 𝑸𝟏 é: 16 Quartil Médio 𝑸𝟐 é: 34 Quartil Superior 𝑸𝟑 é: 68 Intervalo Interquartil é: IIQ = 𝑄3 − 𝑄1 = 68 − 16 = 52. b) Análise de valores discrepantes Extremo inferior = 𝑄1 − 1.5(IIQ) = 16 − 1.5 × 52 = 16 − 78 = −62 Extremo superior = 𝑄3 + 1.5(IIQ) = 68 + 1.5 × 52 = 68 + 78 = 146 Todos valores abaixo de −62 e acima de 146 são considerados discrepantes. Porque dos dados fornecidos não tem valores abaixo de −62, então os valores discrepantes são 192, 229, 453 e 483, porque estão acima do extremo superior 146. c) Cálculo de desvio de quartil e coeficiente de desvio de quartil. Desvio de Quartil é: D. Q = 𝑄3 − 𝑄1 2 = 68 − 16 2 = 52 2 = 26 Coeficiente de D . Q = 𝑄3 − 𝑄1 𝑄3 + 𝑄1 = 68 − 16 68 + 16 = 26 84 = 0.31 𝑄2 𝑄1 = 14 + 18 2 = 16 𝑄3 = 67 + 69 2 = 68 Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 27 d) Construção do box plot e análise de simetria da distribuição dos dados. Valor mínimo = 5, Valor máximo = 483, Q1 = 16, Q2 = 34 e Q3 = 68 1.5(IIQ) = 78 e 3(IIQ) = 156, porque não há dados no intervalo entre 78 e 156, então não tem valores discrepantes moderados. Assim, os valores 192, 229, 453 e 483 são extremos discrepantes porque se encontram acima de 3(IIQ) = 156. O box plot será: Porque a linha da mediana Q2 está próxima a Q1, os dados são assimétricos positivos. Dados Agrupados Quando encontramos situações em que os dados são agrupados na forma de uma frequência onde já não temos valores de dados individuais, não podemos usar as fórmulas definidas anteriormente. Para analisar esse tipo de dados, novas formulas são definidas que darão valores aproximados. Definição: Suponha que dados agrupados têm 𝑙 classes, com 𝑚𝑖 sendo centro da classe e 𝑓𝑖 sendo a frequência da classe 𝑖, 𝒊 = 𝟏, 𝟐, 𝟑, … , 𝒍. Seja 𝒏 =∑𝒇𝒊 𝒍 𝒊=𝟏 A média da amostra do tamanho 𝒏, �̅� = 𝟏 𝒏 ∑𝒎𝒊𝒇𝒊 𝒍 𝒊=𝟏 onde 𝒎𝒊 é o ponto central da classe 𝒊 e 𝒇𝒊 é a frequência da classe 𝒊. Variância da amostra 𝑺𝟐 = 𝟏 𝒏 − 𝟏 ∑𝒇𝒊 𝒍 𝒊=𝟏 (𝒎𝒊 − �̅�) 𝟐 Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 28 Desvio Padrão 𝑺 = √𝑺𝟐 Mediana 𝑴𝒅 = 𝑳𝒎𝒅 + 𝒘𝒎𝒅 𝒇𝒎𝒅 (𝟎. 𝟓𝒏 − 𝒇𝒄.𝒂) Onde: 𝑳𝒎𝒅 = limite inferior da classe que contém a mediana. 𝒏 = número total de frequências. 𝒘𝒎𝒅 = largura do intervalo da classe que contém a mediana. 𝒇𝒎𝒅 = frequência da classe que contém a mediana. 𝒇𝒄.𝒂 = frequências cumulativas para todas as classes antes da classe mediana. Moda Para dados agrupados, a classe com maior frequência é que contém a moda. A sua fórmula é dada por: 𝑴𝐎 = 𝑳𝒎𝒅 +𝒘𝒎𝒅 ( ∆𝟏 ∆𝟏 + ∆𝟐 ) onde ∆𝟏= 𝒇𝒎𝐨 − 𝒇𝒂 𝒆 ∆𝟐= 𝒇𝒎𝐨 − 𝒇𝐝 Sendo 𝒇𝒎𝐨 = frequência da classe modal. 𝒇𝒂 = frequência da classe antes da classe modal 𝒇𝒅 = frequência da classe depois da classe modal. Desvio Quartil Para os dados agrupados o desvio quartil é calculado da mesma maneira como dados não agrupados. Assim, será dado por: 𝐃𝐞𝐬𝐯𝐢𝐨 𝐪𝐮𝐚𝐫𝐭𝐢𝐥: 𝐃. 𝐐 = 𝑸𝟑 − 𝑸𝟏 𝟐 Mas neste caso precisamos calcular quartil inferior 𝑸𝟏 e quartil superior 𝑸𝟑 usando a fórmula da mediana. Assim, serão dados por: Quartil Inferior 𝑸𝟏 = 𝑳𝑸𝟏 + 𝒘𝑸𝟏 𝒇𝑸𝟏 (𝟎. 𝟐𝟓𝒏 − 𝒇𝒄.𝒂) Onde: 𝑳𝑸𝟏 = limite inferior da classe que contém 𝑸𝟏. 𝒏 = númerototal de frequências. 𝒘𝑸𝟏 = largura do intervalo da classe que 𝑸𝟏. Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 29 𝒇𝑸𝟏 = frequência da classe que contém 𝑸𝟏. 𝒇𝒄.𝒂 = frequências cumulativas para todas as classes antes da classe que contém 𝑸𝟏. Quartil Superior 𝑸𝟑 = 𝑳𝑸𝟑 + 𝒘𝑸𝟑 𝒇𝑸𝟑 (𝟎. 𝟕𝟓𝒏 − 𝒇𝒄.𝒂) Onde: 𝑳𝑸𝟑 = limite inferior da classe que contém 𝑸𝟑. 𝒏 = número total de frequências. 𝒘𝑸𝟑 = largura do intervalo da classe que 𝑸𝟑. 𝒇𝑸𝟑 = frequência da classe que contém 𝑸𝟑. 𝒇𝒄.𝒂 = frequências cumulativas para todas as classes antes da classe que contém 𝑸𝟑. Localização dos Quartis para Dados Agrupados 𝑄1 encontra-se na classe com frequência cumulativa mínima de 1 4 (𝑛 + 1). 𝑄2 encontra-se na classe com frequência cumulativa mínima de 1 2 (𝑛 + 1). 𝑄3 encontra-se na classe com frequência cumulativa mínima de 3 4 (𝑛 + 1). Exemplo: Suponha que os dados agrupados na tabela abaixo representam o número de crianças que nascem durante a adolescência em uma certa província. Ache a média, variância, desvio padrão, a median, a moda e o desvio quartil para seguintes dados. Solução Média: 𝒏 =∑𝑓𝑖 = (7 + 4 + 19 + 12 + 8) = 50 𝑛 𝑖=1 Crianças 𝑚1 = 0+3 2 = 1.5 𝑚2 = 4+7 2 = 5.5 𝑚3 = 8+11 2 = 9.5 𝑚4 = 12+15 2 = 13.5 𝑚5 = 16+19 2 = 17.5 Então: �̅� = 𝟏 𝒏 ∑𝒎𝒊𝒇𝒊 𝒍 𝒊=𝟏 = 1 50 [(1.5 × 7) + (5.5 × 4) + (9.5 × 19) + (13.5 × 12) + (17.5 × 8)] Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 30 = 1 50 (10.5 + 22 + 180.5 + 162 + 140) = 1 50 × 515 = 10.3 Crianças Variância 𝑺𝟐 = 𝟏 𝒏 − 𝟏 ∑𝒇𝒊 𝒍 𝒊=𝟏 (𝒎𝒊 − 𝒙) 𝟐 = 1 (50 − 1) [7(1.5 − 10.3)2 + 4(5.5 − 10.3)2 + 19(9.5 − 10.3)2 + 12(13.5 − 10.3)2 + 8(17.5 − 10.3)2] = 1 49 (542.08 + 92.16 + 12.16 + 122.88 + 414.72) = 1 49 × 1184 = 24.16 Crianças Desvio Padrão 𝑺 = √𝑆2 = √24.16 = 4.92 Crianças Mediana Classes 𝒇𝒊 Cumulativa ∑𝒇𝒊 𝒍 𝒊=𝟏 Cumulativa 1 𝑛 ∑𝒇𝒊 𝒍 𝒊=𝟏 0 – 3 7 7 7 50 = 0.14 4 – 7 4 11 11 50 = 0.22 8 – 11 19 30 30 50 = 0.6 12 – 15 12 42 42 50 = 0.84 16 – 19 8 50 50 50 = 1.00 O primeiro intervalo para o qual a frequência relativa cumulativa excede 0.5 é o intervalo que contém a mediana. Neste caso, a mediana encontra-se no intervalo: 8 – 11. Assim: 𝐿𝑚𝑑 = 8, 𝑤𝑚𝑑 = 3, 𝑓𝑚𝑑 = 19 𝑛 = 50 e 𝑓𝑐.𝑎 = 11 Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 31 𝑀𝑑 = 𝐿𝑚𝑑 + 𝑤𝑚𝑑 𝑓𝑚𝑑 (0.5𝑛 − 𝑓𝑐.𝑎) = 8 + 3 19 (0.5 × 50 − 11) = 8 + 3 19 × 14 = 8 + 2.21 = 10.21 Crianças Moda A classe com maior frequência é que contém a moda. Assim a moda está no intervalo: 8 – 11. Assim: 𝐿𝑚𝑑 = 8, 𝑤𝑚𝑑 = 3, 𝑓𝑚o = 19, 𝑓𝑎 = 4, 𝑓d = 12 ∆1= 𝑓𝑚o − 𝑓𝑎 = 19 − 4 = 15 𝑒 ∆2= 𝑓𝑚o − 𝑓d = 19 − 12 = 7 𝑀O = 𝐿𝑚𝑑 + 𝑤𝑚𝑑 ( ∆1 ∆1 + ∆2 ) = 8 + 3 ( 15 15 + 7 ) = 8 + 3 × 15 22 = 8 + 2.045 = 10.05 Crianças Desvio Quartil 𝒏 =∑𝑓𝑖 = (7 + 4 + 19 + 12 + 8) = 50 𝑛 𝑖=1 Crianças 1 4 (𝑛 + 1) = 1 4 (50 + 1) = 51 4 = 12.75 → Q1 encontra − se na classe: 8 − 11. 3 4 (𝑛 + 1) = 3 4 (50 + 1) = 3 × 51 4 = 38.25 → Q3 encontra − se na classe: 12 − 15. Assim: 𝐿𝑄1 = 8, 𝑤𝑄1 = 3, 𝑓𝑄1 = 19, 𝑓𝑐.𝑎 = 11 𝑄1 = 𝐿𝑄1 + 𝑤𝑄1 𝑓𝑄1 (0.25𝑛 − 𝑓𝑐.𝑎) = 8 + 3 19 (0.25 × 50 − 11) = 8 + 3 × 1.5 19 = 8 + 0.24 = 8.24 Crianças 𝐿𝑄3 = 12, 𝑤𝑄1 = 3, 𝑓𝑄3 = 12, 𝑓𝑐.𝑎 = 30 𝑄1 = 𝐿𝑄3 + 𝑤𝑄3 𝑓𝑄3 (0.75𝑛 − 𝑓𝑐.𝑎) = 12 + 3 12 (0.75 × 50 − 30) = 12 + 3 × 7.5 12 = 12 + 1.875 = 13.875 Crianças Finalmente: Desvio Quartil 𝐷. 𝑄 = 𝑄3−𝑄1 2 = 13.875−8.24 2 = 5.635 2 = 2.82 Crianças Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 32 UNIVERSIDADE ZAMBEZE FACULDADE DE CIÊNCIAS AGRÁRIA Bioestatística (BIES) Ficha I de Exercícios 2o Ano - 3o Semestre, 2018 1. Na sociedade de hoje, são tomadas decisões com base nos dados. Estudos mais científicos ou industriais e experiências produzem dados. A análise destes dados e tirar conclusões úteis deles se torna um dos assuntos centrais da Estatística. a) O que entende por Estatística? O que é Bioestatístca? b) Porquê é que a Estatística é importante para o engenheiro agro-pecuário? 2. Explique diferenciando a estatística descritiva e inferêncial com exemplos concretos. 3. O estudo estatístico basea-se nos dados que são colectados de diferentes maneiras dependondo do objectivo a alcançar. a) O que são dados? b) Explique o procedimento para a recolha de dados. c) Mencione e explique com exemplos os tipos de dados que conheces. 4. O que entende por população? a) Suponha que desejamos estudar as alturas de todos os estudantes masculinos na FCA. Qual seria a população? 5. O que é uma amostra? Supondo que desejamos calcular a porcentagem de sementes defeituosas processadas em uma fábrica durante uma determinada semana (cinco dias) examinando 20 sementes processadas por dia. As sementes serão examinadas cada dia a tempos escolhidos aleatoriamente. a) Qual seria a população? b) Qual seria amostra? 6. Como engenheiro se estivesse num laboratório fazendo uma certa experiência repetida várias vezes em mesmas condições enquanto recolhe os resultados. a) Qual seria a população? b) Qual seria amostra? Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 33 7. Diferencie seguintes esquemas de amostragem e dê exemplo de cada um. a) Amostra aleatória simples e amostra sistemática. b) Amostra estratificada simples e amostra por contigência. 8. Independentemente de esquema de amostragem usado, as observações de amostra são propensas a vários erros que podem afectar as conclusões seriamente sobre a população. Mencione e explique dois tipos de erros que podem surgir durante o estudo estatístico. 9. São apresentados os dados na tabela abaixo para ilustrar o papel de consumo de energia renovável na província de Tete. Fonte Percentagem Carvão Gás Natural Energia elétrica nuclear Petróleo Energia renovável 22% 23% 8% 40% 7% a) Construa o gráfico de barra b) Construa o gráfico de Parreto c) Construa o gráfico circular 10. Supondo que o governo decidiu estabelecer salários de acordo com a idade dos funcionários como na tabela que se segue, Idade Salário 16 a 19 anos 20 a 24 anos 25 a 34 anos 35 a 44 anos 45 a 54 anos 55 a 64 anos 65 anos e mais 260mt 334mt 498mt 600mt 628mt 605mt 393mt a) Construa o gráfico circular e de Barras para esses dados e interprete. b) Construa o gráfico de Parreto. Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 34 11. Uma amostra de 25 medidas é dada abaixo: a) Faça uma tabela de frequência que exibe intervalos de classe, frequências, frequências relativas, frequências relativas acumuladas e porcentagens de frequências relativas. b) Construa um histograma de frequência e interprete. 12. A partir dos dados abaixo, calcule a média, desvio padrão, desvio médio absoluto e desvio quartil. Apresenteo box plot para os dados. 176 105 133 140 305 215 207 210 173 150 78 96 13. Para quatro observações, é determinado que média é 6, mediana é 4 e moda é 3. Ache o desvio padrão da amostra. 14. Os dados abaixo pertencem a uma amostra aleatória de desembolsos de fundos para projectos de desenvolvimento de agricultura (em milhões de meticais), para diferentes distritos. a) Determine a média e variância. b) Encontre amplitude, quartis inferior e superior, mediana e intervalo interquartil. c) Analise se há quaisquer valores discrepantes e calcule o desvio quartil e seu coeficiente. d) Crie o box plot dos dados. 15. Uma amostra aleatória de despesas semanais de 100 machambas de milho representada por x de um distrito particular deu as estatísticas seguintes: ∑𝑥𝑖 = 11000 e ∑𝑥𝑖 2 = 1900000 a) Determine a média e o desvio padrão para esses dados. 16. Para quaisquer dados agrupados com l classes e com frequências agrupadas 𝑓𝑖 e marcas de classes 𝑚𝑖, mostre que ∑𝑓𝑖(𝑚𝑖 − �̅�) = 0 𝑙 𝑖=1 a) Verifique este resultado para os dados da tabela abaixo Classe 0 – 4 5 – 9 10 – 14 15 – 19 20 – 24 Frequência 5 14 15 10 6 Bioestatística/2o_ano/3o_semestre/fca/universidade_zambeze@2018 35 17. Para avaliar a actividade de proteção de vários animais por vacinação, suponha que são testados 30 grupos de vacinas diferentes em grupos de animais. Suponha que os seguintes dados foram obtidos dos testes a) Encontre a média, mediana, moda, variância, desvio padrão e desvio quartil para os dados e interprete. b) Construa a tabela de frequência com 5 classes. c) Usando formulas de dados agrupados, encontre a média, variância, desvio padrão e desvio quartil para os dados. d) Determine a mediana e a moda e, compare os resultados obtidos em (a), (c) e (d). 18. A tabela abaixo dá a distribuição das massas (em gramas) de 50 sacos de adubos produzidos numa certa fábrica. massa 155 – 164 165 – 174 175 – 184 185 – 194 195 – 204 Frequência 8 11 18 9 4 a) Usando formulas de dados agrupados, calcule a média, variância, desvio padrão b) Calcule o desvio quartil e o coeficiente do desvio quartil. c) Encontre a mediana e a moda para os dados. 19. Para controlar a qualidade de produtos e cumprir com as normas internacionais, os erros absolutos registados por duas balanças (gm) utilizadas no departamento de empacotamentos de produtos numa certa indústria, foram registados como seguem: Balança A 1.3 2.1 0.9 4.2 1.1 2.3 0.7 3.2 Balança B 0.8 1.8 2.7 4.2 1.9 0.9 4.7 3.7 Baseando-se nas variâncias das amostras, sugere qual das duas balanças usadas na medição pode garantir ser bastante consistente? =================================Fim=================================
Compartilhar