Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e Tema 1-Estatística Descritiva-Estatística I 1. Noções de Estatística Para algumas pessoas, a Estatística não é senão um quadro de colunas mais ou menos longas de números que dizem respeito à população, à indústria ou ao comércio, como se vê frequentemente em revistas; para outras, ela dá gráficos mostrando a variação no tempo de um facto económico ou social, a produção ou os números relativos aos negócios de uma empresa, assim como se encontra nos escritórios de empresas privadas. Tão diferenciados se apresentam os métodos estatísticos que não é possível estabelecer uma definição que os contenha a todos. Apesar disso, apresentamos a seguir uma definição que, embora necessariamente incompleta como qualquer outra, tem a vantagem de introduzir o aluno na matéria. A Estatística tem como finalidade elaborar de uma síntese numérica que evidencie o que de mais generalizado e significativo exista num conjunto numeroso de observações. O grande número de observações de que se parte reflete uma diversidade tal que se torna ininteligível a sua interpretação. Para que, a partir dessa diversidade se possa começar a entender logo, torna-se necessário reduzir sucessivamente as observações, ganhando-se em generalidade o que se vai perdendo em individualidade. A síntese implica, assim, que nos desprendamos do que é particular e individual para nos atermos ao que existe de mais geral no conjunto das observações; à medida que a síntese progride, vai-se perdendo o contacto com as particularidades imediatas. Deste modo, a Estatística não se ocupa do que é excecional, mas apenas do que é geral: não se interessa pelo indivíduo, mas por grupos de indivíduos; não se ocupa, em suma, de uma só medição, mas de um conjunto de medições. Acrescente-se, ainda, que a síntese é numérica. Quer isto dizer que se prescinde inteiramente das palavras e dos recursos literários de mais ou menos efeito que elas possibilitam. Alcança-se a síntese pelo recurso exclusivo dos números. Daí o afã com que frequentemente se escolhem os números de acordo com os argumentos. A Estatística é intrinsecamente uma disciplina não literária, manipula exclusivamente números e alcança a síntese ordenando-os e cooperando com eles. “Estatística”, deriva de “status” que em latim significa Estado, e que só por si demonstra a ligação que sempre existiu entre ambos. O primeiro levantamento estatístico remonta a 3050 a.C., no Egipto, tendo como objetivo informar o estado sobre recursos humanos e económicos. No séc. XVII d.C., a disciplina de Estatística era já lecionada nas universidades alemãs, continuando com a finalidade de descrever as populações e as riquezas do Estado. Ainda no séc. XVII, dá-se a expansão dos seus campos de investigação a áreas como a Saúde pública; a Indústria; o Comércio e os Estudos Demográficos. Os métodos de inferência estatística surgem com Jonh Graunt (1620-1674), um modesto comerciante, que tira conclusões válidas sobre uma população desconhecida por ele. Fermat (1601-1665) e Pascal (1623-1662) permitem que o estudo do acaso tome uma expressão matemática, introduzindo o Cálculo das Probabilidades. Esta expressão matemática e o aparecimento do método dos mínimos quadrados, vêm credibilizar a Estatística conferindo-lhe a fundamentação matemática em que ela, hoje, assenta. No séc. XVIII Lambert Quetelet (1796-1874) introduziu a Estatística nas análises da Meteorologia; da Antropometria; das Ciências Sociais; da Economia e da Biologia. 2 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e Aos contributos anteriores Francis Galton (1822-1911), acrescenta as noções de regressão e correlação; Karl Pearson (1857-1936) apresenta a mais bela e acabada teoria de Estatística, ficando também conhecido pelos seus coeficientes (r; c); Fisher com os seus trabalhos sobre inferência Estatística também deu um grande contributo ao desenvolvimento da Estatística. Em 1943, dá-se uma grande reviravolta, uma vez que o tratamento de dados deixa de ser feito manualmente e passa, numa primeira fase, a ser apoiado por calculadoras potentes para mais tarde ser computadorizado. O Método Estatístico, segundo a teoria de Cramer, pressupõe as seguintes fases: Recolha de dados estatísticos: Obtenção da amostra a partir da população, devendo depurar e retificar os dados estatísticos, que no seu conjunto são denominados série estatística. Descrição: Conjunto de operações, numéricas ou gráficas, efetuadas sobre os dados estatísticos determinando a sua distribuição; procede-se à sua ordenação, codificação e representação por meio de quadros e tabelas. Análise: Consiste em tirar conclusões sobre a distribuição da população, determinar o seu grau de confiança e ainda formular hipóteses, tentando verificá-las, quanto ao fenómeno em estudo. Predição: é uma previsão do comportamento do fenómeno em estudo, tendo em conta a definição da distribuição estatística. Em termos gerais, parece-nos que uma boa definição do que é a estatística, já que resume os conceitos dos vários autores, é: Ciência que trata do planeamento, colheita, organização, sintetização, apresentação e análise de dados, bem como, a obtenção de conclusões válidas e tomada de decisões em diversos campos do saber (engenharias, saúde, biologia, farmácia, biofísica, ciências sociais, geografia, etc.). Com efeito, o papel da Estatística na pesquisa científica é apoiar o investigador na formulação das hipóteses estatísticas e fixação das regras de decisão, no fornecimento de técnicas para um eficiente plano de investigação, na colheita, tabulação e análise dos dados (estatística descritiva) e em fornecer testes de hipóteses a serem realizados de tal modo que a incerteza da inferência possa ser expressa em um nível probabilístico pré-fixado(inferência estatística) cujo valor máximo de erro mais consensual é de 5%. (fig 1) FIGURA 1: FLUXO DA IMPORTANCIA E CONTRIBUTO DA ESTATISTICA. 1.1.Definição De Estatística A Estatística constitui-se em uma ciência destinada a: I. Decidir o melhor plano (experimental ou observacional) para a execução de uma pesquisa ⟹metodologia científica. 3 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e II. Organizar e resumir dados de contagem, mensuração e classificação⟹raciocínio dedutivo. III. Inferir sobre populações de unidades (indivíduos, animais, objetos) quando uma parte (amostra) é considerada⟹raciocínio indutivo. A doutrina sobre o chegar a termo do tempo e da história da estatística matemática (escatologia) é tão complicada como a de qualquer religião, ou mais. Além disso, as conclusões da estatística matemática não são apenas verdadeiras, como, ao contrário das verdades da religião, podem ser provadas. Os métodos da estatística matemática são universais (ubíquos), e o estatístico, assim como o especialista em modelagem matemática, é capaz de colaborar em, praticamente, qualquer área de conhecimento e atividade profissional. Uma igualdade que pode sintetizar as considerações descritas anteriormente pode ser expressa como: ESTATÍSTICA = CIÊNCIA + TECNOLOGIA + ARTE 1.2.Análise Descritiva Ou Análise Exploratória De Dados Organização dos dados coletados por meio de classificação, contagem ou mensuração. Os dados devem ser apresentados de forma clara por meio tabelas, gráficos e medidas resumo (posição e variabilidade), não permitindo, no entanto, conclusões analíticas. 1.3.Análise Inferencial Permite realizar inferências (conclusões e analíticas) a respeito de populações partir de amostras pela aplicação de testes de hipóteses e/ou construção de intervalos de confiança. Deve ser considerado que está utilizando-se amostras para inferir aos dados reais da população (parâmetros), portanto existindo nestas estatísticas (dadosobtidos de amostras) uma margem de erro. A exceção é o censo, quando toda a população é pesquisada. 1.4.Planeamento Experimental Consiste em estabelecer o desenho amostral com poder adequado para os testes de hipóteses e estimações sem vieses (distorções). Deve ser considerado o cálculo do tamanho da amostra (tamanho ético e estatístico) e a definição da forma de coleta de dados (técnicas de amostragem). 1.5.Tipos De Variável Variáveis são características que podem assumir valores diferentes de um indivíduo para outro ou no mesmo indivíduo ao longo do tempo. Em relação à participação no estudo, as variáveis podem ser classificadas em: I. Independente, explicativa ou preditora: permite predizer uma resposta (causas). II.Dependente ou resposta: evento ou característica que se pretende estudar (efeitos). III. Variável de controle: deseja-se que esteja homogeneamente distribuí da nos grupos, pois poderia interferir nos resultados (atuando, por exemplo, como uma variável de confusão). Não tem interesse para estudo. Escala de Variáveis Quanto à escala utilizada, têm-se variáveis: 4 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e Categóricas{ 𝐍𝐨𝐦𝐢𝐧𝐚𝐥(classificação sem ordem definida) 𝐎𝐫𝐝𝐢𝐧𝐚𝐥(classificação com ordem definida) (Qualitativas) Numéricas{ 𝐃𝐢𝐬𝐜𝐫𝐞𝐭𝐚(contagem, correspondendo a números inteiros) 𝑬𝒙: 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑙𝑒𝑖𝑡𝑜𝑠, 𝑛ú𝑚𝑒𝑟𝑜𝑠 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠, 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑝𝑟𝑜𝑐𝑒𝑑𝑖𝑚𝑒𝑛𝑡𝑜𝑠 𝐂𝐨𝐧𝐭í𝐧𝐮𝐚(mensuração, correspondendo a números reais) 𝐄𝐱: pressão arterial, peso (Quantitativas ou Intervalar) • Geralmente, as variáveis contínuas são resultado de medição e as discretas, de contagens. Observações: I. A unidade de medida mostra a diferença entre as numéricas discreta e contínua. II. Escore não é contagem (não confundir variáveis categóricas nominais expressas por números com variáveis discretas). III. Pode-se transformar uma variável numérica em categórica (lembrar que há perda de informações). IV. Para variáveis categóricas a análise estatística é limitada. Se as variáveis dependentes e independentes forem todas categóricas, só será possível utilizar testes não paramétricos, que apresentam menor poder. V. Eric Temple Bell (matemático norte-americano) afirmou: “Números não mentem, mas têm a propensão de dizer a verdade com intenção de enganar”. O ser humano tem a tendência de ver padrões e costuma vê-los onde só existe ruído aleatório. Observações As variáveis nominais são representadas por categorias que não mantêm necessariamente relação entre elas. Não é possível realização de operações aritméticas, como soma ou produto, sendo possível basicamente a contagem das observações em cada categoria. Exemplo: sexo, raça, diagnóstico Na escala ordinal as categorias podem ser representadas por nomes, símbolos ou números, porém há ordenação de uma categoria em relação à outra. A distância entre uma categoria e a outra não pode ser medida numericamente. Além da operação de contagem, permitem operações que envolvam ordenação (maior/menor). Exemplo: gravidade da doença Na escala intervalar o valor nulo não corresponde à ausência da característica medida. A escala possui um zero arbitrário. Exemplo: temperatura - o 0ºC não corresponde `a ausência de temperatura, mas ao 0º da escala Celsius. 5 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e A escala de razão é uma escala intervalar, onde o zero corresponde à ausência da característica medida. Nesta escala, é válido afirmarmos que uma pessoa com 70Kg possui duas vezes o peso de uma criança com 35 Kg. Exemplo: massa corporal, idade, tempo, pressão arterial ou temperatura Kelvin. 2. Tipos de Pesquisa 2.1.Pesquisa Observacional: coletamos informações sobre variáveis categóricas e numéricas de interesse, em indivíduos de um ou mais grupos, mas não realizamos intervenções. Quanto à forma de obtenção dos dados, pode ser prospectivo, retrospectivo ou transversal. Exemplos: Levantamento Populacional, 2.2.Pesquisa Observacional e Estudos Epidemiológicos São, em geral, necessários quando informações preliminarmente coletadas indicam que um estudo epidemiológico mais detalhado deve ser conduzido para estudar a associação entre uma variável resposta dicotômica (doença, óbito) e variáveis explicativas categóricas e numéricas • Coortes Em estudos de coorte prospectivo todos os indivíduos incluídos são não doentes e divididos em 2 grupos, expostos e não expostos. O coorte é seguido por um período de tempo e taxas de incidência da doença são comparadas entre expostos e não expostos. Este estudo também pode ser conduzido retrospectivamente selecionando dois grupos de indivíduos expostos e não expostos comparando-se taxas de incidência da doença em um período de tempo passado. • Caso-Controle Em estudos de caso-controle um grupo de doentes (casos) e um grupo de não doentes (controles) são selecionados. A proporção de indivíduos que foram expostos por um período de tempo é calculada nos grupos e comparadas. • Transversal Em estudos transversais ou de prevalência, exposição a fatores de risco e de ocorrência da doença são avaliados simultaneamente num ponto no tempo em um grupo de indivíduos. Taxas de prevalência da doença são comparadas entre expostos e não expostos. 2.3.PesquisaExperimental: coletamos as informações como no caso anterior, mas os resultados são influenciados pelo pesquisador com intervenções. Em geral é necessário grupo controle. A forma de obtenção dos dados é, em geral, prospectiva, longitudinal. Exemplos: Ensaios Clínicos, experimentos nas áreas de Agronomia, indústria e laboratórios. Etapas: • Objetivo; • Descrição das situações experimentais que serão • Comparadas (Tratamentos); • Descrição da população experimental; • Escolha da unidade experimental; • Escolha do Plano Experimental: • Completamente casualizado (amostras não pareadas) • Blocos casualizados (amostras pareadas) • Experimentos “Cross-over” 6 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e 3. População: Conjunto de todos os elementos que possuem, pelo menos, uma característica em comum, cujo comportamento interessa analisar. População: somatório dos indivíduos ou elementos, com qualquer característica comum e que estão sujeitos a uma análise estatística, por terem interesse para o estudo. Quanto à sua origem pode ser: um conjunto de pessoas; um conjunto de objecto ou um conjunto de acontecimentos. Quanto à sua natureza pode ser: Existente ou real; Hipotética ou parcialmente existente. A população pode ser: finita ou infinita. População Finita: apresenta um número limitado de elementos. É possível enumerar todos os elementos componentes. São exemplos de populações finitas 𝑬𝒙𝟏: Os docentes de Matemática; 𝑬𝒙𝟐:Nascimento de crianças em um dia num determinado hospital. 𝑬𝒙𝟑: O número de pacientes com determinada doença em um hospital 𝑬𝒙𝟒: O número de hospitais em uma determinada cidade População Infinita: apresenta um número ilimitado de elementos. Não é possível enumerar todos os elementos componentes. Entretanto, tal definição existe apenas no campo teórico, uma vez que, na prática, nunca encontraremos populações com infinitos elementos, mas sim, populações com grande número de componentes; e nessas circunstâncias, tais populações são tratadas como se fossem infinitas. São exemplos de populações Infinitas 𝑬𝒙𝟏:Os resultados obtidos (cara ou coroa) em sucessivos lançamentos de uma moeda; 𝑬𝒙𝟐:As temperaturas de Moçambique 𝑬𝒙𝟑: O número de nascimentos numa cidade 4. Amostra: Subconjunto da população, selecionado de acordo com determinados critérios. Amostra: é um subconjunto retirado da população, que se supõe ser representativo detodas as características da mesma, sobre o qual será feito o estudo, com o objetivo de serem tiradas conclusões válidas sobre a população. Uma amostra é considerada parte representativa da população se ela tiver a propriedade de absorver todas as características da população e se as características da população estiverem nela contidas, as conclusões a respeito desta amostra podem ser consideradas como conclusões da respectiva população. A medida que o tamanho de uma amostra for crescendo, as informações relativas à amostra vão se tornando cada vez mais verdadeiras. Diversos fatores justificam os trabalhos com amostras, no lugar de estudar a respectiva população, entre os quais, destacam-se: 7 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e • Custo: as despesas com a operacionalização estatística da população são geralmente bem maiores que com a averiguação de uma amostra. • Velocidade: as pesquisas realizadas com amostras são mais rápidas, em virtude de conter um menor número de unidades. • Praticabilidade: conforme o próprio conceito, às vezes, a dimensão da população torna as pesquisas impraticáveis. Amostra Representativa– é aquela que tem as mesmas características da população de onde foi retirada. 5. Amostragem: Processos de obtenção de uma amostra a partir de uma população. Amostragem: é o procedimento pelo qual um grupo de pessoas ou um subconjunto de uma população é escolhido com vista a obter informações relacionadas com um fenómeno, e de tal forma que a população inteira nos interessa esteja representada. 5.1.Tipos e Métodos de Amostragem 5.1.1. Amostragens Probabilísticas e Não-Probabilísticas A amostragem é probabilística quando cada elemento na população tem a mesma probabilidade conhecida e diferente de zero de pertencer à amostra. É usada alguma forma de sorteio. Permite generalizações para a totalidade da população. O tipo de amostragem não probabilística, pode prejudicar a possibilidade de generalizações (validade externa) de um estudo, fazendo com que não seja representativo em relação à população. Os seus resultados são válidos para aquele estudo determinado, não permitindo generalizações para outras situações semelhantes. Exemplos: Por voluntários: os elementos amostrais são voluntários para a pesquisa. Bastante empregada em experimentos com medicamentos e técnicas médicas. Intencional: o pesquisador escolhe os elementos amostrais. Entrevistar os ex-secretários de saúde para pesquisa de políticas de saúde. Por acesso mais fácil: os elementos são escolhidos por estarem mais próximos ou em melhores condições de acesso. Ex: Aplicar questionário na população da zona rural mais próxima do centro. As Amostragens Probabilísticas Como já referimos os métodos de amostragem probabilística servem para assegurar uma certa precisão na estimação dos parâmetros da população, reduzindo o erro amostral. Oobjetivo desta abordagem é obter a melhor representatividade possível. A amostra aleatória ou probabilística é constituída por n unidades retiradas ao acaso da população. Em outras palavras, a amostra aleatória é obtida por sorteio. Logo, toda unidade da população tem probabilidade conhecida de pertencer à amostra. Para obter uma amostra aleatória, é preciso que a população seja conhecida e cada unidade esteja identificada por nome ou por número. Os elementos que constituirão a amostra são escolhidos por sorteio. Algumas pessoas acreditam que o sorteio: por computador é mais "sério", ou mais "exato". 8 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e Hoje em dia, é mais fácil. No entanto, o sorteio feito com papeizinhos em uma caixa ou bolas em uma urna (usados em programas de televisão) ajuda entender as regras do procedimento aleatório. 5.1.2. Técnicas de Amostragens Probabilísticas As técnicas de amostragem probabilísticas mais comuns entre nós são: A Amostragem Aleatória Simples; A Amostragem Sistemática. A Amostragem Aleatória Estratificada; A Amostragem em Cachos; 5.1.2.1.Amostragem Aleatória Simples ou Casual A Amostragem aleatória simples é uma técnica segundo a qual cada um dos elementos (sujeitos) que compõe a população alvo tem igual probabilidade de ser escolhido para fazer parte de uma amostra. É um procedimento que pode se tornar trabalhoso quando a população é muito grande. É aplicado quando a população é considerada homogénea. Para manter essa propriedade deve- se numerar todos os elementos da população e, através de um sorteio ou do auxílio de uma tabela de números aleatórios, obter os elementos que comporão a amostra desejada. Por exemplo: Obter uma amostra representativa, de 10%, de uma população de 200 alunos de uma escola. 1º) Numerar os alunos de 1 a 200; 2º) Escrever os números de 1 a 200 em pedaços de papel e colocá-los em uma urna; 3º) Retirar 20 pedaços de papel, um a um, da urna, formando a amostra da população. Nesta técnica de amostragem, todos os elementos da população têm a mesma probabilidade de serem selecionados: 1/N, onde N é o número de elementos da população. Um outro exemplo é recorrer a uma lista com números aleatórios (LNA). Os números aleatórios podem ser selecionados de qualquer lugar da tabela, o importante é selecionar e manter uma sequência lógica (ex: coluna de cima para baixo, linha esquerda para a direita, etc). Existem várias tabelas de números aleatórios com sequência de três, quatro ou cinco números. Essas tabelas também podem ser obtidas em programas como Excel. Apesar de se pretender representatividade quando recorremos a uma técnica de amostragem aleatória, pode ocorrer que a amostra não seja representativa da população. Por exemplo, uma população formada por 50% de mulheres e 50% de homens, a amostragem probabilística simples pode resultar numa amostra de 65% de mulheres e 35% de homens. Nesse caso a amostra continua a ser aleatória, mas não é representativa. Uma amostra aleatória simples poder ser constituída segundo duas técnicas: Amostra com reposição Amostra sem reposição Na amostragem com reposição, a unidade selecionada retorna para a população. Portanto, em cada nova seleção, a população mantém a mesma quantidade de unidades elementares. Na amostragem realizada sem reposição, a unidade selecionada não retorna para a população. Portanto, em cada seleção a população é reduzida de uma unidade elementar. 9 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e É importante observar que, em geral, as amostragens são realizadas sem reposição e os cálculos estatísticos nos dois tipos de amostragens são os mesmos. Por exemplo, numa pesquisa de intenção de voto para escolha do presidente da republica, espera se que cada pessoa seja entrevistada apenas uma vez. Se o tamanho da população for suficientemente maior que o tamanho da amostra, (pelo menos vinte vezes), os resultados estatísticos das amostras com e sem reposição não serão muito diferentes, pois a probabilidade de escolher o mesmo elemento é muito pequena. Contudo, deve-se ter cuidado redobrado quando a população é pequena quando comparadas com o tamanho da amostra a ser extraída. Outro exemplo: Uma amostra aleatória simples. Imagine que você precisa obter uma amostra de 2% dos 500 pacientes de uma clínica para entrevistá-los sobre a qualidade de atendimento da secretária. Qual seria o procedimento para obter uma amostra aleatória simples? Solução Para obter uma amostra aleatória de 2% dos 500 pacientes, você precisa sortear 10. Você pode fazer isso da maneira mais antiga e conhecida (e também a mais trabalhosa). Comece escrevendo o nome de todos os pacientes em pedaços de papel. Coloque todos os pedaços de papel em uma urna, misture bem e retire um nome. Repita o procedimento até ter os nomes dos 10 pacientes que comporão sua amostra.5.1.2.2.Amostragem Sistemática Tal como a técnica de amostragem aleatória simples, só se pode utilizar quando existe uma lista ordenada de elementos da população, seja por ordem alfabética, seja em arquivo, processo clínico ou numa lista telefónica. Esta técnica consiste em retirar K elementos dessa lista sendo o primeiro elemento da amostra retirado ao acaso. O que a faz diferir da técnica anterior é o tamanho do intervalo, que aqui corresponde à razão entre o tamanho da população e da amostra. É aplicada em populações finitas; os elementos são escolhidos por um sistema, utilizando a sua ordenação natural (listagens, registos, alunos, etc.). Define-se a quantidade “k” que é a sigla que representa o intervalo de amostragem (k=N/n); a seguir deve ser sorteado o início do sistema, a partir do qual serão definidos os elementos amostrais para cada “k”. Face ao exposto podemos referir que uma amostra sistemática de tamanho n é constituída dos elementos de ordem K, K + r, K + 2r,..., Onde K é um inteiro escolhido aleatoriamente entre 1 e n r é o inteiro mais próximo da fração N/n. Já que esta técnica de amostragem em populações que possuem os elementos ordenados, em que não há a necessidade de construir um sistema de referência, aseleção dos elementos que comporão a amostra pode ser feita por um sistema criado pelo pesquisador. 𝐾 = 𝑁 𝑛 Exemplo1 Obter uma amostra de 80 casas de uma rua que contém 2000 casas. Nesta técnica de amostragem, podemos realizar o seguinte procedimento: 10 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e 1º) Como 2000 dividido por 80 é igual a 25, escolhemos, por um método aleatório (por exemplo sorteio) qualquer, um número entre 1 e 25, que indica o primeiro elemento selecionado para a amostra. 2º) Consideramos os demais elementos, periodicamente, de 25 em 25. Se o número sorteado entre 1 e 25 for o número 8, a amostra será formada pelas casas: 8ª, 33ª, 58ª, 83ª, 108ª, etc. Apesar de esta técnica ser de fácil execução, há a possibilidade de haver ciclos de variação, que tornariam a amostra não-representativa da população. Por exemplo, se a população tem 100 elementos e vamos escolher uma amostra de tamanho 6, K é um inteiro escolhido aleatoriamente entre 1 e 6 e r = 100/6 = 16,6 = 17. Se K = 3, a amostra será composta pelos seguintes elementos: 3, 20, 37, 54, 71, 88. Se o tamanho da população é desconhecido, não podemos determinar exatamente o valor de r. Escolheremos intuitivamente um valor razoável para r. Às vezes a amostragem sistemática é preferida à amostragem aleatória simples, porque é mais fácil de executar, estando portanto sujeita a erros, e proporciona mais informações com menor custo. Exemplo: técnica adequada para extrair uma amostra de 50 internautas de um cibercafé Solução: A amostragem aleatória simples não pode ser empregada neste caso, pois o entrevistador não pode determinar quais os utilizadores a serem incluídos na amostra, uma vez que não se conhece o tamanho N da população, até que todos os internautas tenham ido ao respetivo cibercafé. A amostragem sistemática é a mais apropriadas pois podemos definir um intervalo (digamos 1 em cada 20 internautas que apareçam para utilizar a internet) até obter a amostra do tamanho desejado. 5.1.2.3.Amostragem Aleatória Estratificada A amostragem estratificada utiliza-se quando a população possui características que permitem a criação de subconjuntos, já que nestes casos as amostras extraídas por amostragem simples são menos representativa. Com efeito, a amostragem aleatória estratificada é mais uma variante da amostra aleatória simples, uma vez que após divisão da população alvo em subgrupos homogéneos chamados “estratos», a seguir se tira de forma aleatória uma amostra de cada estrato. A Amostragem aleatória estratificada é utilizada, ao contrário das anteriores, quando a população inteira é reconhecida por certas características precisas, tais como a idade, o sexo, a incidência de uma condição de saúde, tudo isto para assegurar a melhor representatividade possível. Com efeito, quando os elementos da população estão divididos em grupos não sobrepostos, é mais fácil e mais eficiente escolher, independentemente, uma amostra aleatória simples dentro de cada um destes grupos, os quais são chamados estratos. Esta forma de amostragem é uma das mais utilizadas, já que a maioria das populações têm estratos bem definidos: os homens e as mulheres; os alunos das escolas X, Y, Z; os operários pertencentes aos indices salariais 190, 195, etc. O mais comum é utilizar-se a amostragem estratificada proporcional, que consiste em selecionar os elementos da amostra entre os vários estratos, em número proporcional ao tamanho de cada um dos estratos. 11 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e Como a população se divide em subconjuntos, convém que o sorteio dos elementos leve em consideração tais divisões, para que os elementos da amostra representem o número de elementos desses subconjuntos. Como exemplo observe a figura abaixo: Em outras palavras, sejam: N - o número de elementos da população L - o número de estratos Ni - o número de elementos do estrato i n - o tamanho da amostra a ser selecionada. Note-se que: N = N1 + N2 + ... + NL Número de elementos a serem sorteados em cada estrato será: N1f, N2f,..., Nkf Exemplo 1: Numa população de 200 estudantes, há 120 rapazes e 80 raparigas. Pretende-se extrair uma amostra representativa, de 10%, dessa população. Neste exemplo, há uma característica que permite identificar 2 subconjuntos, a característica Sexo. Considerando essa divisão, vamos considerar a população e extrair a amostra da população. Sexo População Amostra (10%) Masculino 120 12 Feminino 80 8 Total 200 20 Portanto, a amostra deve conter 12 alunos do sexo masculino e 8 do sexo feminino, totalizando 20 alunos, que correspondem a 10% da população. Para selecionar os elementos da população para formar a amostra, podemos executar os seguintes passos: 1º) Numerar os estudantes de 1 a 200, sendo os alunos numerados de 1 a 120 e as alunas, de 121 a 200; 2º) Escrever os números de 1 a 120 em pedaços de papel e colocá-los em uma urna A; 3º) Escrever os números de 121 a 200 em pedaços de papel e colocá-los em uma urna B; 4º) Retirar 12 pedaços de papel, um a um, da urna A, e 8 da urna B, formando a amostra da população. 12 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e Exemplo: Numa localidade com 150 000 habitantes, 45 000 têm menos de 20 anos de idade, 75 000 têm idades entre 30 e 50 anos e 30 000 têm mais de 50 anos de idade. Extrair uma amostra de 30 habitantes desta população pelo processo de amostragem estratificada com partilha proporcional. Solução: A amostra deverá conter 9 habitantes com menos de 20 anos,15 com idades entre 20 e 50 anos 6 com mais de 50 anos. 5.1.2.4.Amostragem em Cachos ou conglomerados Consiste em retirar de forma aleatória os elementos por cachos em vez de unidades. É útil quando os elementos da população estão naturalmente por cachos e por isso devem ser tratados como grupos ou quando não é possível obter uma listagem de todos os elementos da população-alvo. Como exemplo de amostragem por cachos podemos referir a escolha de um grupo de escolas C+S para avaliar o conhecimento que os alunos do 2º e 3º anos têm acerca da recolha e separação de resíduos. Como seria muito difícil obter uma lista de todos os alunos que frequentam aqueles anos e escolher aleatoriamente quais constituíram a amostra recorre-se a cachos (escolas) e dentro destas far-se-á a seleção. É importante reter que em qualquer tipo de agrupamento (cachos ou estratos), a amostra só é considerada probabilística se os grupos foram escolhidos ao acaso antesda repartição aleatória dos sujeitos nos grupos. N = 150 000, N1 = 45 000, N2 = 75 000, N3 = 30 000 e n = 30 150000 000 45 301 n 91 n ; 150000 000 75 302 n 151 n ; 150000 000 30 303 n 61 n 13 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e Uma amostra por cachos ou conglomerado é uma amostra aleatória simples na qual cada unidade de amostragem é um grupo, um cacho ou um conglomerado de elementos. O primeiro passo para se usar este processo é especificar os cachos apropriados, já que todos os elementos devem ter características similares. Como regra geral, o número de elementos em cada cacho deve ser pequeno em relação ao tamanho da população, mas o número de cachos deve ser, razoavelmente, grande. Tanto no caso da amostragem estratificada como no da amostragem por cachos, a população deve estar dividida em grupos. Na amostragem estratificada, entretanto, seleciona-se uma amostra aleatória simples dentro de cada grupo (estrato),enquanto que na amostragem por cachos selecionam-se amostras aleatórias simples de grupos, e todos os itens dentro dos grupos (conglomerados) selecionados farão parte da amostra. A amostragem por cachos é recomendada quando: Ou não se tem um sistema de referência listando todos os elementos da população, ou a obtenção dessa listagem é dispendiosa; O custo da obtenção de informações cresce com o aumento da distância entre os elementos. A amostra por conglomerados é constituída por n unidades tomadas de alguns conglomerados. O conglomerado é um conjunto de unidades que estão agrupadas, qualquer que seja a razão. Um asilo é um conglomerado de idosos, uma universidade pública é um conglomerado de pessoas com bom nível socioeconômico, um serviço militar é um conglomerado de adultos jovens saudáveis. Como exemplo, imagine que um dentista quer levantar dados sobre a necessidade de aparelho ortodôntico em crianças de 12 anos. Ele pode sortear três escolas de primeiro grau (conglomerados) e examine todas as crianças com 12 anos dessas escolas. Exemplo: Uma amostra por conglomerados Um professor de Educação Física quer estudar o efeito da terapia de reposição hormonal (uso de hormônios por mulheres depois da menopausa) sobre o desempenho nos exercícios. Como obteria uma amostra por conglomerados? Solução O professor de Educação Física pode sortear duas academias de ginástica da cidade e avaliar o desempenho das mulheres que frequentam a academia e já tiveram a menopausa (tanto as que fazem como as que não fazem uso da terapia de reposição hormonal) para posterior comparação. 5.2.As Amostragens Não Probabilísticas: É um procedimento de seleção segundo o qual cada elemento da população não tem a mesma probabilidade de ser escolhido para formar a amostra. Este tipo de amostragem tem o risco de ser menos representativa que a probabilística no entanto é muitas vezes o único meio de construir amostras em certas disciplinas profissionais nomeadamente na área da saúde. Este tipo de amostragens requerem critérios de inclusão e exclusão rígidos para evitar o maior número possível de vieses. O tamanho da amostra neste tipo de amostragens é muito importante pois quanto maior for menor é a probabilidade de que casos idiossincráticos possam afetar o todo de uma forma significativa. Daí que as amostras provindas deste tipo de amostragens devam ter sempre um superior aquele que seria representativo do todo se utilizasse uma amostragem do tipo probabilística. 14 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e 5.2.1. Técnicas de Amostragens Não-Probabilísticas: A Amostragem Acidental ou de Conveniência (por substituição da aleatória simples); A Amostragem por Cotas (por substituição da amostragem estratificada ou por cachos); A Amostragem de Seleção Racional ou Tipicidade (por substituição da estratificada); A Amostragem por Redes ou Bola de Neve (por substituição da sistemática). 5.2.1.1.Amostragem Acidental ou de Conveniência É formada por sujeitos facilmente acessíveis, que estão presentes num determinado local e momento preciso. Neste tipo de amostra tem a vantagem de ser simples de organizar e pouco onerosa, toda via este tipo de amostra provoca enviesamentos, pois nada indica que as primeiras 30 a 40 pessoas sejam representativas da população-alvo. São utilizadas em estudos que não têm como finalidade a generalização dos resultados. Esse tipo de amostragem, embora não aleatória, é bastante utilizada na área da saúde, geralmente são amostras obtidas em consultórios, hospitais, etc. Neste caso, é importante o senso crítico do pesquisador para evitar vieses, por exemplo, não selecionar sempre pessoas de mesmo sexo, de mesma faixa etária, etc. utilizando critérios específicos de inclusão/ exclusão. Uma técnica possível de aproximar este tipo de amostragens o mais possível às probabilísticas é ir verificando, à medida que os dados vão sendo colhidos, se os seus subgrupos estão, proporcionalmente à população alvo, representados na amostra. Exemplo: Os fabricantes e as agências de propaganda costumam fazer entrevistas em shoppings para obter informações sobre os hábitos dos consumidores e a eficiência de anúncios. Exemplo: Imagine que um nutricionista quer entrevistar 50 mães de crianças com idades de3 e 4 anos para conhecer os hábitos alimentares dessas crianças. Como obteria essa amostra? Solução Se o nutricionista trabalha em uma escola, para obter a amostra de 50 mães decrianças de 3 e 4 anos, provavelmente procurará as mães de crianças matriculadas na escola em que trabalha. 5.2.1.2.Amostragem por Quotas Idêntica à amostragem aleatória estratificada, já que é constituída por um número pré- determinado de pessoas em cada uma das várias categorias da população. A amostragem por quotas difere da estratificada apenas pelo facto dos sujeitos não serem escolhidos aleatoriamente no interior de cada quota ou de cada grupo. A amostra por quotas é constituída por n unidades retiradas da população segundo quotas estabelecidas de acordo com a distribuição desses elementos na população. A ideia de quota é semelhante à de estrato, com uma diferença básica: você seleciona a amostra por julgamento e depois confirma as características das unidades amostradas. A amostragem por quotas não é aleatória, embora muitos pensem que é. A grande vantagem é ser relativamente barata. Por esta razão, é muito usada em levantamentos de opinião e pesquisas de mercado. 15 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e Exemplo: Uma amostra por quotas Considere uma pesquisa sobre a preferência de modelo de carro. Como se faz uma amostra por quotas? Solução Você possivelmente irá entrevistar homens e mulheres com mais de 18 anos que vivem em uma cidade (por exemplo, Maputo), na proporção apresentada pelo censo demográfico em termos de sexo, idade e renda. Você então sai às ruas para trabalhar com a incumbência de entrevistar determinada quota de pessoas. Com determinadas características. Por exemplo, você pode ser incumbido de entrevistar 30 homens com "mais de 50 anos que recebam mais de seis e menos de 10 salários mínimos". Então você deverá julgar, pela aparência da pessoa, se ela se enquadra nas características descritas - homem de mais de 50 anos que ganha entre seis e 10 salários mínimos. Se achar que viu a pessoa certa, deve fazer a abordagem e depois confirmar as características com perguntas. O número de pessoas em determinada quota depende do número delas na população. 5.2.1.3.Amostragem por Seleção Racional, Julgamento ou por Tipicidade Tem por base o julgamento do investigador ou especialista para constituir uma amostra de sujeitos em função do seu carácter típico ou atípico cujos membros tenham boas perspetivas de fornecerem as informações necessárias ao estudo.Por exemplo: o estudo de casos extremos ou desviantes como uma patologia rara ou uma instituição. Neste caso, o pesquisador avalia quais pessoas detém maior conhecimento do tema a ser estudado e escolhe os elementos que julga serem os mais representativos da população. Exemplo: Deseja-se saber qual a evolução nos processos de produção de certo alimento . Após julgar, o pesquisador buscará pessoas que dominem o assunto para compor a sua amostra. 5.2.1.4.Amostragem por Redes ou Bola de Neve Consiste em escolher sujeitos que seriam difíceis de encontrar de outra forma. Toma-se por base, redes sociais amizades e conhecimentos. Por exemplo: quando o investigador encontra sujeitos que satisfazem os critérios escolhidos pede-lhes que indiquem outras pessoas de características similares. 6. Apresentação de Dados 6.1.Normas para apresentação tabular de dados Definição – É um conjunto de técnicas que visa: organizar e sumarizar a informação contida nos dados. Para este fim utiliza-se TABELAS e GRÁFICOS (organização) e MEDIDAS (de centralidade e de dispersão p/ sumarização). Tabulação: Uma tabela estatística compõe-se de elementos essenciais e elementos complementares. Os elementos essenciais de uma tabela estatística são: o título, o corpo, o cabeçalho e a coluna indicadora. - Título é a indicação que precede a tabela e que contém a designação do fato observado, o local e a época em que foi registrado. 16 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e - Corpo é o conjunto de colunas e linhas que contém respetivamente, em ordem horizontal e vertical, as informações sobre o fato observado. Uma Casa é o cruzamento de uma coluna com uma linha. As casas não deverão ficar em branco, apresentando sempre um número ou um sinal convencional. - Cabeçalho é a parte superior da tabela que especifica o conteúdo das colunas. -Coluna indicadora é a parte da tabela que especifica o conteúdo da linha. Obs.: Uma tabela pode Ter mais de uma coluna indicadora Os elementos complementares de uma tabela estatística são: a fonte, as notas e as chamadas, e se situam de preferência no rodapé da tabela. Fonte é a indicação da entidade responsável pelo fornecimento dos dados ou pela sua elaboração. Notas: são informações de natureza geral, destinadas a conceituar ou esclarecer o conteúdo das tabelas, ou a indicar a metodologia adotada na elaboração dos dados Chamadas: São informações de natureza específica sobre determinadas partes da tabela, destinadas a conceituar ou esclarecer dados; são indicadas no corpo da tabela em algarismos arábicos, entre parênteses, à esquerda nas casas e à direita na coluna indicadora. A numeração das chamadas da tabela será sucessiva, de cima para baixo e da esquerda para a direita. A distribuição das chamadas no rodapé na tabela obedecerá à ordem de sua sucessão na tabela, separando-se uma das outras por ponto (.). As chamadas de uma tabela que ocupe mais de uma página devem figurar no rodapé da tabela da última página, de acordo com a sucessão da mesma. Sinais Convencionais - (traço), quando o dado for nulo; ... (três pontos), quando não se dispuser do dado X (letra x), quando o dado for omisso a fim de evitar a individualização das informações Apresentação das Tabelas - As tabelas, excluídos os títulos, serão delimitadas, no alto e em baixo, por traços horizontais grossos, preferencialmente. 6.2.Organização de Dados Estatísticos Quadros e tabelas (Séries Estatísticas) São assim chamadas as tabelas estatísticas nas quais existe um critério distintivo de agrupamento. Série Estatística É qualquer tabela que apresenta a distribuição de um conjunto de dados estatísticos em função da época, do local ou da espécie. São elas: a) Séries Cronológicas; b) Séries Geográficas; c) Séries Específicas; d) Séries Conjugadas. a) Séries Cronológicas (ou temporais) Neste tipo de série o “QUE” (fato) e o “ONDE” (local) permanecem fixos, enquanto o “QUANDO” (tempo varia), ou seja a informação varia com a variação do tempo. Identifica-se pelo caráter variável do fator cronológico. O local e a espécie (fenômeno) são elementos fixos. Esta série também é chamada de histórica ou evolutiva. 17 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e b) Séries Geográficas (ou de Localização) Nestas séries o elemento variável é o “ONDE” (local) enquanto o “QUE” (fato) e o “QUANDO” (tempo) permanecem constantes. Apresenta como elemento variável o fator geográfico. A época e o fato (espécie) são elementos fixos. Também é chamada de espacial, territorial ou de localização. c) Séries Específicas (ou de Qualidade) São aquelas em que o “ONDE” (local) e o “QUANDO” (tempo) são fixos variando-se o “QUE” (fato) em subgrupos de características próprias. Caráter variável é apenas o fato ou espécie. Também é chamada de série categórica. d) Séries Conjugadas (ou mistas) São assim classificadas as séries que combinam pelo menos duas das séries anteriores. Também chamadas de tabelas de dupla entrada. São apropriadas à apresentação de duas ou mais séries de maneira conjugada, havendo duas ordens de classificação: uma horizontal e outra vertical. 6.3.Distribuição De Frequência É um tipo de tabela que condensa uma coleção de dados conforme as frequências (repetições de seus valores). 6.3.1. Tabela primitiva ou dados brutos É uma tabela ou relação de elementos que não foram numericamente organizados. É difícil formarmos uma ideia exata do comportamento do grupo como um todo, a partir de dados não ordenados. Ex : 45, 41, 42, 41, 42 43, 44, 41 ,50, 46, 50, 46, 60, 54, 52, 58, 57, 58, 60, 51 ROL É a tabela obtida após a ordenação dos dados (crescente ou decrescente). Ex : 41, 41, 41, 42, 42 43, 44, 45 ,46, 46, 50, 50, 51, 52, 54, 57, 58, 58, 60, 60 6.3.2. Distribuição de frequência SEM INTERVALOS DE CLASSE É a simples condensação dos dados conforme as repetições de seu valores. Para um ROL de tamanho razoável esta distribuição de frequência é inconveniente, já que exige muito espaço. Veja exemplo abaixo: 18 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e Tabela: Pesos em Kg de estudantes Dados Frequência 41 3 42 2 43 1 44 1 45 1 46 2 50 2 51 1 52 1 54 1 57 1 58 2 60 2 Total 20 6.3.3. Distribuição de frequência COM INTERVALOS DE CLASSE Quando o tamanho da amostra é elevado, é mais racional efetuar o agrupamento dos valores em vários intervalos de classe. Na distribuição, os intervalos parciais deverão ser apresentados de maneira a evitar dúvidas quanto à classe a que permanece determinado elemento. O tipo de intervalo mais usado é do tipo fechado a esquerda e aberto a direita, representado pelo símbolo: |---. Tabela: Pesos em Kg de estudantes de Nutrição Classes Frequências 41 |------- 45 7 45 |------- 49 3 19 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e 49 |------- 53 4 53 |------- 57 1 57 |------- 61 5 Total 20 6.3.3.1.Elementos De Uma Distribuição De Frequência (com intervalos de classe) Etapas para a construção de uma distribuição de frequências: 1ª) Coleta dos dados Consiste em obter os dados brutos, que são os dados coletados na ordem na qual aparecem e que ainda não estão prontos para que se realize uma análise mais detalhada. 2ª) Formação do rol É a organização dos dados brutos, em uma determinada ordem, que poderá ser crescente ou decrescente. 3ª) Determinar o número de classes (k) Classe É aconselhável usar de 5 a 20 classes. Para se determinar o número de classes (k), a partir do rol, usa-se a Fórmula de Sturges ou o Método da Raiz. Fórmula de Sturges 𝑛 > 40 𝑘 = 1 + 3,3𝑙𝑜𝑔𝑛 Método da Raiz 𝑛 ≤ 40 Onde n é o número de observações coletadas. São os intervalos de variação da variável e é simbolizada pori e o número total de classes simbolizada por k. Ex: na tabela anterior k = 5 e 49 |------- 53 é a 3ª classe, onde i = 3. No nosso exemplo: n = 20 dados, então ,a princípio, a regra sugere a adoção de 5 classes. 20 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e Obs: Qualquer regra para determinação do nº de classes da tabela não nos levam a uma decisão final; esta vai depender, na realidade de um julgamento pessoal, que deve estar ligado à natureza dos dados. 4ª) Amplitude do intervalo de classe 𝑎 = 𝐴 𝑘 𝐴 = 𝑋𝑚á𝑥𝑖𝑚𝑜 − 𝑋𝑚í𝑛𝑖𝑚𝑜 Onde: A = Maior valor coletado– Menor valor coletado (Amplitude total) Amplitude Total Da Distribuição É a diferença entre o limite superior da última classe e o limite inferior da primeira classe. AT = L(max) - l(min). Ex: na tabela anterior AT = 61 - 41= 20. Amplitude do intervalo da classe É obtida através da diferença entre o limite superior e inferior da classe e é simbolizada por a=hi = Li - li. Ex: na tabela anterior hi = 53 - 49 = 4. Obs: Na distribuição de frequência c/ classe o hi será igual em todas as classes. Obs.: A amplitude do intervalo de classe poderá sofrer um arredondamento adequado em função do tipo de dado coletado. Esse valor geralmente será arredondado para cima, de preferência na casa decimal dos dados. O intervalo de classe deverá ser preferencialmente constante em toda a distribuição defrequência. Amplitude Total Da Amostra (Rol) É a diferença entre o valor máximo e o valor mínimo da amostra (ROL). Onde AA = Xmax - Xmin. Em nosso exemplo AA = 60 - 41 = 19. Obs: AT sempre será maior que AA. No nosso exemplo: 𝑎 = 19 5 = 3,8. 21 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e Obs: Para haver folga na última classe. Utilizaremos então a = 4 Tendo o menor nº da amostra, o nº de classes e a amplitude do intervalo. Podemos montar a tabela, com o cuidado para não aparecer classes com frequência = 0 (zero). No nosso exemplo: o menor nº da amostra = 41 + a= 45, logo a primeira classe será representada por ......41 |------- 45. As classes seguintes respeitarão o mesmo procedimento. O primeiro elemento das classes seguintes sempre serão formadas pelo último elemento da classe anterior. 5ª) Intervalo de classe Consiste em definir a simbologia de representação do intervalo de classe, bem como os limites de classe, em função do número de classes estabelecidas. (|---, ---|, |---| e ---) Limites De Classe São os extremos de cada classe. O menor número é o limite inferior de classe(li) e o maior número, limite superior de classe(Li). Ex: em 49 |------- 53, l3 = 49 e L3 = 53. O símbolo|------- representa um intervalo fechado à esquerda e aberto à direita. O dado 53 do ROL não pertence a classe 3 e sim a classe 4 representada por 53 |------- 57. 6ª) Ponto médio de classe (Xi) É a média aritmética simples do limite inferior com o limite superior de uma mesma classe. 𝑋𝑖 = 𝑙𝑖 + 𝐿𝑖 2 É o ponto que divide o intervalo de classe em duas partes iguais. Ex: em 49 |------- 53 o ponto médio 𝐗𝟑 = (𝟒𝟗+𝟓𝟑) 𝟐 = 𝟓𝟏, ou seja 𝑿𝟑 = (𝒍𝟑+𝑳𝟑) 𝟐 . 7ª) Frequência absoluta (fi) É a número de indivíduos por classe. Deve-se cuidar a contagem dos indivíduos nas classes, em função do tipo de intervalo utilizado. Frequência absoluta ou efetivo (𝒇𝒊)de um valor da variável é o número de vezes que esse valor aparece na lista de dados. 8ª) Frequência absoluta acumulada (Fi) 22 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e É o somatório da frequência absoluta da i-ésima classe com a frequência absoluta das classes anteriores, ou a frequência acumulada da classe anterior. Frequência absoluta acumulada (𝑭𝒊 𝒐𝒖 𝒇𝒂𝒄𝒊)de um valor da variável é o somatório da sua frequência absoluta com todas as anteriores (as dos valores anteriores). 9ª) Frequência Relativa (fr) É o quociente entre a frequência absoluta da i-ésima classe pelo somatório das frequências. Frequência relativa (𝒇𝒓𝒊)de um valor da variável é o quociente entre a sua frequência absoluta e o número total de dados. 𝒇𝒓𝒊 = 𝒇𝒊 𝒏 10ª) Frequência Relativa Acumulada (Fr) É o somatório da frequência relativa da i-ésima classe com as frequências relativas das classes anteriores. Frequência relativa acumulada (𝑭𝒓𝒊 𝒐𝒖 𝒇𝒂𝒄𝒓𝒊)de um valor da variável é o somatório da sua frequência relativa com todas as anteriores (as dos valores anteriores). No nosso exemplo, temos: Distribuição de frequências sem intervalos de Classes Tabela: Peso em Kg de estudantes Dados Frequência Absoluta (𝑓𝑖) Frequência Relativa (𝑓𝑟𝑖) Frequência Relativa Percentual (𝑓𝑟𝑖%) Frequência Absoluta Acumulada (𝐹𝑖) Frequência Relativa Acumulada (𝑓𝑖) Frequência Relativa Percentual Acumulada (𝑓𝑟𝑖%) 41 3 0,15 15 3 0,15 15 42 2 0,10 10 5 0,25 25 43 1 0,05 5 6 0,30 30 44 1 0,05 5 7 0,35 35 45 1 0,05 5 8 0,40 40 46 2 0,10 10 10 0,50 50 50 2 0,10 10 12 0,60 60 51 1 0,05 5 13 0,65 65 23 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e 52 1 0,05 5 14 0,70 70 54 1 0,05 5 15 0,75 75 57 1 0,05 5 16 0,80 80 58 2 0,10 10 18 0,90 90 60 2 0,10 10 20 1,00 100 Total 20 1 100 Distribuição de frequências com intervalos de Classes Tabela: Pesos em Kg de estudantes Classes 𝑋𝑖 Frequência Absoluta (𝑓𝑖) Frequência Relativa (𝑓𝑟𝑖) Frequência Relativa Percentual (𝑓𝑟𝑖%) Frequência Absoluta Acumulada (𝐹𝑖) Frequência Relativa Acumulada (𝑓𝑖) Frequência Relativa Percentual Acumulada (𝑓𝑟𝑖%) 41 |------- 45 43 7 0,35 35 7 0,35 35 45 |------- 49 47 3 0,15 15 10 0,50 50 49 |------- 53 51 4 0,20 20 14 0,70 70 53 |------- 57 55 1 0,05 5 15 0,75 75 57 |------- 61 59 5 0,25 25 20 1,00 100 Total 20 1 100 24 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e 6.4.Tabelas de frequências de Variáveis Qualitativas Podemos construir tabela de frequência que os quantificam por categoria de classificação e sua representação gráfica é mediante gráfico de barras, gráfico setorial ou em forma de pizza. Exemplo: Uma tabela de distribuição de frequências para dados ordinais. Foram entrevistados 2.500 Moçambicanos, com 18 anos ou mais, para saber a opinião deles sobre o valor energético de um determinado tipo de alimento. Veja o que eles responderam: 1.300 achavam que o alimento era bom, 450 achavam razoável e 125 achavam ruim; 625não tinham opinião ou não quiseram opinar. Como se organizam estes dados em uma tabela de distribuição de frequências? Na Tabela estão as respostas dadas pelos entrevistados (primeira coluna) e as frequências dessas respostas (segunda coluna). A soma das frequências é 2.500 (número de entrevistados). Tabela: Opinião dos Moçambicanos sobre valor energético de um determinado tipo de alimento. Respostas Frequência Frequência Relativa Bom 1300 0,52 Razoável 450 0,18 Ruim 125 0,05 Não Sabe 625 0,25 Total 2500 1,00 7. Representação Gráfica de uma Distribuição 8.1. Gráficos Estatísticosg São representações visuais dos dados estatísticos que devem corresponder, mas nunca substituir as tabelas estatísticas. Características: Uso de escalas, sistema de coordenadas, simplicidade, clareza e veracidade. 8.2. Gráficos de informação São gráficos destinados principalmente ao público em geral, objetivando proporcionar uma visualização rápida e clara. São gráficos tipicamente expositivos, dispensando comentários explicativos adicionais. As legendas podem ser omitidas, desde que as informações desejadas estejam presentes. 8.3. Gráficos de análise São gráficos que prestam-se melhor ao trabalho estatístico, fornecendo elementos úteis à fase de análise dos dados, sem deixar de ser tambéminformativos. Os gráficos de análise frequentemente 25 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e vêm acompanhados de uma tabela estatística. Inclui-se, muitas vezes um texto explicativo, chamando a atenção do leitor para os pontos principais revelados pelo gráfico. Uso indevido de Gráficos: Podem trazer uma ideia falsa dos dados que estão sendo analisados, chegando mesmo a confundir o leitor. Trata-se, na realidade, de um problema de construção de escalas. . 8.4. Classificação dos gráficos: Diagramas, Estereogramas, Pictogramas e Cartogramas.. 8.4.1. Diagramas São gráficos geométricos dispostos em duas dimensões. São os mais usados na representação de séries estatísticas. Eles podem ser: 8.4.1.1. Diagrama de caule - e - folhas: Idade dos pais dos estudantes do Curso de Nutrição: Para que possa ser corretamente lido, é necessário indicar a unidade em que os dados estão representados. Mãe ->50 43 40 38 41 41 44 40 45 40 40 56 47 8 39 9 9 7 5 4 3 1 1 0 0 0 0 4 0 1 5 6 6 6 8 9 6 05 0 9 6 1 Pai ->49 50 46 46 31 39 48 61 45 39 46 39 40 59 26 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e Tens de escrever do lado direito (ou esquerdo) da linha a coluna das dezenas dos números apresentados. A esta coluna dá-se o nome de caule. De seguida escreves do lado direito (ou esquerdo) da linha a coluna dos algarismos das unidades. Damos a esta coluna o nome de folhas. (No exemplo temos duas folhas, uma a esquerda e outra a direita). Por fim organiza-se do lado direito (ou esquerdo) a coluna dos algarismos das unidades. 8.4.1.2. Gráfico de Barras São gráficos formados por um conjunto de barras em que a altura é proporcional às frequências. Num dos eixos marcam-se as frequências (absolutas ou relativas) e no outro os valores da variável. As barras devem ficar igualmente distanciadas umas das outras. Uma das vantagens é a sua fácil construção. 8.4.1.3. Gráficos em Barras: É a representação de uma série por meio de retângulos, dispostos horizontalmente (em barras) ou verticalmente (em colunas). Gráficos em barras horizontais Quando em barras, os retângulos têm a mesma altura e os comprimentos são proporcionais aos respectivos dados. Gráficos em barras verticais( colunas ). Quando em colunas, os retângulos têm a mesma base e as alturas são proporcionais aos respectivos dados. 0 100 200 300 fórcipe pélvico cesárea normal Nº de Gestantes T ip o d e p a rt o 27 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e Quando as legendas não são breves usa-se de preferência os gráficos em barras horizontais. Nesses gráficos os retângulos têm a mesma base e as alturas são proporcionais aos respectivos dados. A ordem a ser observada é a cronológica, se a série for histórica, e a decrescente, se for geográfica ou categórica. Gráficos em barras compostas. Gráficos em colunas superpostas. Eles diferem dos gráficos em barras ou colunas convencionais apenas pelo fato de apresentar cada barra ou coluna segmentada em partes componentes. Servem para representar comparativamente dois ou mais atributos. População em Idade Ativa e Economicamente Ativa 0 20 40 60 80 100 120 0 1 2 3 4 5 6 7 8 9 10 N o . d e r e c é m -n a s c id o s No. de consultas 28 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e 8.4.1.3. Gráficos em linhas ou lineares. São frequentemente usados para representação de séries cronológicas com um grande número de períodos de tempo. As linhas são mais eficientes do que as colunas, quando existem intensas flutuações nas séries ou quando há necessidade de se representarem várias séries em um mesmo gráfico. Quando representamos, em um mesmo sistema de coordenadas, a variação de dois fenômenos, a parte interna da figura formada pelos gráficos desses fenômenos é denominada de área de excesso. 8.4.1.4. Gráficos em Setores ou Circular. Este gráfico é construído com base em um círculo, e é empregado sempre que desejamos ressaltar a participação do dado no total. O total é representado pelo círculo, que fica dividido em tantos setores quantas são as partes. Os setores são tais que suas áreas são respectivamente proporcionais aos dados da série. O gráfico em setores só deve ser empregado quando há, no máximo, sete dados. Deve ter atenção que este tipo de gráficos, construídos, de um modo geral, para dados qualitativos: 0 5.000 10.000 15.000 20.000 25.000 População em Idade Ativa População Economicamente Ativa N º d e p e ss o as ( 1 .0 0 0 ) Homem Mulher C re s c im e n to e m a ltu ra s d e c ria n ç a s d o s e x o m a s c u lin o 1 1 5 1 2 0 1 2 5 1 3 0 1 3 5 1 4 0 1 4 5 6 7 8 9 1 0 1 1 1 2 1 3 Id a d e s A lt u ra s M é d ia s A ltu ra M é d ia (c m ) 29 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e - tem de ter legenda e a percentagem de cada sector; - tem a área de cada sector igual à frequência; - deve ter um titulo. Este é um tipo de gráfico bastante atrativo e muito útil para estabelecer comparações entre as frequências das diferentes categorias. No entanto não deve ser usado quando a variável pode assumir muitas modalidades diferentes. Para calcular a amplitude dos ângulos: fri × 360⁰ Obs: As séries temporais geralmente não são representadas por este tipo de gráfico.. 8.4.1.5. Estereogramas São gráficos geométricos dispostos em três dimensões, pois representam volume. São usados nas representações gráficas das tabelas de dupla entrada. Em alguns casos este tipo de gráfico fica difícil de ser interpretado dada a pequena precisão que oferecem. 8.4.1.6. Pictogramas São construídos a partir de figuras representativas da intensidade do fenômeno. Este tipo de gráfico tem a vantagem de despertar a atenção do público leigo, pois sua forma é atraente e sugestiva. Os símbolos devem ser autoexplicativos. A desvantagem dos pictogramas é que apenas mostram uma visão geral do fenômeno, e não de detalhes minuciosos. São gráficos onde se utilizam figuras ou símbolos alusivos á variável em estudo. Deve ter em conta que no gráfico: - tem de existir a legenda do símbolo; - o símbolo deve de estar relacionado com a característica em estudo; - o número de símbolos é proporcional á frequência; - os símbolos podem ser desenhados em linhas ou em colunas; - os símbolos devem poder dividir-se segundo eixos de simetria. Os pictogramas são gráficos muito sugestivos e de fácil leitura. No entanto são pouco precisos. M 45% F 55% Sexo dos Recém-Nascidos 30 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e 8.4.1.7. Cartogramas São ilustrações relativas a cartas geográficas (mapas). O objetivo desse gráfico é o de figurar os dados estatísticos diretamente relacionados com áreas geográficas ou políticas. 8.4.1.8. Histogramas Um Histograma é um diagrama de barras de uma distribuição de frequência com uma diferença: não há espaços entre as barras. Os intervalos de classe são colocados no eixo horizontal enquanto as frequências são colocadas no eixo vertical. Estes gráficos utilizam-se sempre que os dados estão agrupados em classes, na forma de intervalos, devendo ter-se em conta que: - no eixo horizontal representa-se os intervalos das classes; - no eixo vertical representa-se as frequências; - no histograma as barras são juntas. Nota: só para variáveis estatísticas contínuas Nota: Quando as amplitudes não são iguais, tem de se calcular a altura das barras = fi/amplitude 8.4.1.9. Polígonos de Frequência O polígono de frequência é um gráfico de linha de uma distribuição defrequência. Os eixos de um Polígono de frequência são similares ao do Histograma, exceto que no eixo horizontal são colocados os pontos médios de cada intervalo de classe. 0 5 10 15 20 25 30 600 800 1000 1200 1400 1600 R e c é m -n a s c id o s ( % ) peso (g) Peso dos Recém-nascidos 31 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e Nota: para frequências absolutas e relativas O polígono parte do ponto médio de uma classe fictícia com frequência zero, passa pelos pontos médios de cada uma das classes e termina no ponto médio de outra classe fictícia de frequência zero. Polígonos de frequências: Nota: para frequências absolutas e relativas O polígono parte do ponto médio de uma classe fictícia com frequência zero, passa pelos pontos médios de cada uma das classes e termina no ponto médio de outra classe fictícia de frequência zero. Nota: para frequências absolutas acumuladas e relativas acumuladas 0 5 10 15 20 25 30 35 fi Classes Histograma e Polígono de Frequência Simples 151 156 161 166 171 176 181 186 191 32 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e No polígono de frequências acumuladas não se recorre à marca da classe. À esquerda do limite inferior da primeira classe, a frequência acumulada é zero a á direita da última classe é 1 (ou o efectivo se for frequência absoluta) Ogiva: Um Ogiva é um gráfico de uma distribuição de frequência acumulada. 0 10 20 30 40 50 60 70 80 90 100 F i Classes Polígono de Frequência Acumulada 151 156 161 166 171 176 181 186 191 4.0 7.9 11.8 15.7 19.6 23.5 0 50 100 Salario F re qu ên ci a ac um ul ad a pe rc en tu al ( % ) 27,78% 61,11% 80,56% 97,22% 100% 33 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e 8. Medidas de Posição (ou de Tendência Central) Definição: As medidas de posição mais importantes são as medidas de tendência central, que recebem tal denominação pelo fato de os dados observados tenderem, em geral, a se agrupar em torno dos valores centrais. Dentre as medidas de tendência central, destacamos: - a média aritmética; - a mediana; - a moda. As outras medidas de posição são as separatrizes, que englobam: - a própria mediana; - os quartis; - os percentis. 8.1.Para dados não agrupados (Quando os dados não estiverem na forma de distribuição de frequência) 8.1.1. Média Aritmética É o quociente da divisão da soma dos valores (dados, observações) da variável pelo número deles: Sejam𝑥1, 𝑥2, … , 𝑥𝑛 os n valores de uma variável quantitativa. Chama-se média e representa-se por �̅� ao valor assim obtido: �̅� = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑛 𝑜𝑢 �̅� = ∑ 𝑥𝑖 𝑛 𝑛 𝑖=1 sendo: �̅�= a média aritmética; 𝑥𝑖= os valores da variável; 𝑛 = o número de valores. Exemplo: A média da circunferência abdominal de 10 pessoas. Um professor de Educação Física mediu a circunferência abdominal de 10 homens que se apresentaram em uma academia de ginástica. Obteve os valores, em centímetros:88; 83; 79; 76; 78; 70; 80; 82; 86; 105. Calcule a média. 34 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e Solução Some todos os dados e divida o resultado pelo tamanho da amostra, que é 10. Então: �̅� = 88 + 83 + 79 + 76 + 78 + 70 + 86 + 82 + 86 + 105 10 = 827 10 = 82,7 ou seja, os homens mediram, em média, 82.7 cm de circunferência abdominal. 8.1.2. Moda (Mo):É o valor (ou atributo) que ocorre com maior frequência. Num conjunto de valores não agrupados, a moda é facilmente reconhecida: basta procurar o valor que mais se repete. É evidente que a ordenação dos valores contribui para a rápida identificação do(s) valor(es) mais frequente(s). Nota: Para um conjunto de dados, pode existir mais de uma moda ou até não nem existir moda. Se existir uma moda, diz-se que o conjunto é unimodal; Se existirem duas modas, diz-se que o conjunto dos dados é bimodal; Se não existir moda, diz-se que o conjunto de dados é amodal; Em geral, diz-se que um conjunto é multimodal quando apresenta mais do que duas modas. Observe a construção do Rol para cada um dos conjuntos de exemplo: I 1 2 3 4 5 6 7 8 9 10 11 12 Rol 1 10 14 14 14 17 17 18 Rol 2 7 8 8 9 10 10 11 13 14 15 Rol 3 3 4 4 5 6 6 12 13 16 16 20 Rol 4 6 7 10 16 17 21 29 30 33 36 38 41 Exemplo (Rol 1): Nota-se facilmente que a Moda para este conjunto de dados é o valor 14. Logo, este conjunto de dados é UNIMODAL (apenas uma Moda). Observe que o valor 17 aparece apenas duas vezes e portanto não pode ser considerado como uma moda do conjunto, uma vez que o valor 14 aparece três vezes. Exemplo (Rol 2):Nota-se facilmente que no conjunto 2 existem duas modas, o valor 8 e o valor 10. Logo, este conjunto de dados é BIMODAL. Exemplo (Rol 3): No conjunto 3 existem três modas, o valor 4, o valor 6, e o valor 16. A este conjunto de dados denominamos MULTIMODAL. Exemplo (Rol 4): Neste conjunto de dados não existe um valor que apareça mais vezes que os outros. A este conjunto de dados denominamos AMODAL, ou seja, que não tem Moda. 8.1.3. Mediana Sendo 𝑥1, 𝑥2, … , 𝑥𝑛, n valores ordenados (por ordem crescentes ou decrescente) de uma variável quantitativa, chama-se mediana e representa-se por 𝑀𝑑 𝑜𝑢 �̃�. 35 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e Ao valor da variável que ocupa a posição central, se n é impar: �̃� = 𝑥𝑘, 𝑐𝑜𝑚 𝑘 = 𝑛 + 1 2 À média aritmética dos dois valores centrais, se n é par: �̃� = 𝑥𝑘 + 𝑥𝑘+1 2 , 𝑐𝑜𝑚 𝑘 = 𝑛 2 Cabem aqui algumas observações importantes sobre a Mediana: a) O valor da mediana pode coincidir ou não com um elemento da amostra. Quando o número de elementos da amostra é ímpar, há coincidência. O mesmo não acontece quando este número é par. b) A mediana e a média aritmética não têm necessariamente o mesmo valor. c) A mediana depende da posição e não dos valores dos elementos da amostra ordenada. Essa é uma das diferenças marcantes entre a mediana e média: a média se deixa influenciar, e muito, pelos valores extremos, enquanto a mediana não se importa com os valores dos dados, mas apenas com sua posição. A mediana é, por convenção, a média dos valores que ocupam estas duas posições centrais consecutivas. Empregamos a mediana quando: - desejamos obter o ponto que divide a distribuição em partes iguais; - há valores extremos que afetam de uma maneira acentuada a média; - a variável em estudo é salário. Considerando ser a Mediana uma medida de ordenamento do conjunto de dados, é imprescindível que seu cálculo seja efetuado sobre a amostra ordenada, ou seja, o ROL. Retomemos os conjuntos de dados ordenados dos exemplos: I 1 2 3 4 5 6 7 8 9 10 11 12 Rol 1 10 14 14 14 17 17 18 Rol 2 7 8 8 9 10 10 11 13 14 15 Rol 3 3 4 4 5 6 6 12 13 16 16 20 Rol 4 6 7 10 16 17 21 29 30 33 36 38 41 Exemplo (Rol 1): Este conjunto de dados possui 7 elementos, e portanto n é ímpar. Conjuntos de dados ímpares possuem um único elemento central, e sua posição é de ordem 𝑛+1 2 . Assim, a ordem da MEDIANA num conjunto de dados com 7 elementos é o valor na posição 7+1 2 = 4., ou seja, o valor 14. Logo, Md=14. Exemplo (Rol 2): Este conjunto de dados possui 10 elementos, e portanto n é par. Conjuntos de dados pares possuem dois elementos centrais, e a mediana é a média destes dois valores centrais. O primeiro destes valores centrais é de ordem 𝑛 2 , e o segundo valor central é o seu elemento consecutivo, de ordem6 (5+1). Neste caso, os valores dos elementos centrais são 10 (5º)e 10 (6º), 36 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e e portanto a Mediana vale também 10, uma vez que ela é a média destes dois valores. Logo, Md=10. Exemplo (Rol 3): O conjunto 3 possui 11 elementos, e portanto é ímpar. O único elemento central neste caso é de ordem 𝑛+1 2 . Assim, a mediana será o valor do elemento de ordem 6, que, por coincidência, neste caso também vale 6. Logo, Md=6. Exemplo (Rol 4): Este conjunto de dados possui 12 elementos, e portanto n é par. O primeiro valor central é de ordem 𝑛 2 = 12 2 = 6. Assim a mediana será a média entre o 6º e o 7ºvalores do conjunto, que são respectivamente 21 e 29. Logo Md=25. 8.2.Dados Agrupados sem Intervalos Vamos considerar o exemplo de distribuição de frequências (DF) da variável discreta Idade dos Alunos de uma Turma com 50 alunos. Idade dos Alunos numa Turma (em anos) xi fi 17 3 18 18 19 17 20 8 21 4 Σ 50 8.2.1. Cálculo da Média Neste caso, a média é calculada como a soma de cada elemento xi multiplicado pelo número de vezes que esta observação ocorre na amostra, ou seja, pela sua frequência simples fi, dividida pelo número total de elementos na amostra (n). A fórmula de cálculo neste caso, é análoga à formula de cálculo para média ponderada, onde os pesos assumem os valores das frequências de ocorrência de cada elemento. �̅� = 𝑓1𝑥1 + 𝑓2𝑥2 + ⋯ + 𝑓𝑚𝑥𝑚 𝑛 𝑜𝑢 �̅� = ∑ 𝑓𝑖𝑥𝑖 𝑚 𝑖=1 𝑛 = ∑ 𝑓𝑖 𝑛 ∗ 𝑥𝑖 = ∑ 𝑓𝑟𝑖𝑥𝑖 𝑚 𝑖=1 𝑚 𝑖=1 = ∑ 𝑥𝑖𝑓𝑖 𝑚 𝑖=1 ∑ 𝑓𝑖 𝑚 𝑖=1 onde xi são os valores da variável fi são as frequências simples associadas a cada xi n é o nº de elementos na amostra, que é igual à soma das frequências fi 37 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e Observe que na DF acima, já possuímos o valor da soma das frequências if , que é o denominador da equação de cálculo da média. Falta encontrar o valor do numerador da equação representado por ii fx . A estratégia aqui é abrir uma coluna auxiliar na tabela acima, para cálculo dos produtos xi.fi para cada classe, obtendo-se sua soma na linha de totalizações da tabela. Observe abaixo. xi fi xi.fi 17 3 51 18 18 324 19 17 323 20 8 160 21 4 84 Σ 50 942 Observe como agora o cálculo da média se torna uma operação muito simples: �̅� = 942 50 = 18,8 anos. Observação Importante: Considerando que na DF SEM intervalos (Variável DISCRETA) não há perda de detalhes nos valores da variável, a MÉDIA calculada através da Tabela é idêntica à MÉDIA calculada diretamente sobre os DADOS BRUTOS (à mão ou com o Excel), NÃO EXISTINDO neste caso o denominado erro de agrupamento. 8.2.2. Cálculo da Moda Em uma amostra de dados agrupados em DF sem intervalos de classe, a moda é o valor de xi que ocorre com a maior frequência fi. Como f2 é a maior frequência, então x2 é o valor da moda. Logo, Mo=18 anos. xi fi 17 3 18 18 19 17 20 8 21 4 38 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e 8.2.3. Cálculo da Mediana Para determinar o valor que divide a distribuição em dois grupos que contenham o mesmo número de elementos, recorre-se à frequência acumulada, e identifica-se a qual classe pertence o elemento central, da mesma forma que se procedeu para os dados não agrupados. Em função de n ser par ou ímpar e do valor da frequência acumulada da classe, determina-se o valor da Mediana. Conforme mencionado, necessitamos da DF com a coluna correspondente a Fi, conforme mostrado abaixo. xi fi Fi 17 3 3 18 18 21 19 17 38 20 8 46 21 4 50 Σ 50 Em virtude do tamanho da amostra (n) ser par (50), precisamos identificar quais as idades do 25º ( 𝑛 2 ) e do 26º (consecutivo) alunos na amostra ordenada (elementos centrais), para calcular a MEDIANA como a média das idades destes dois alunos. Nosso problema reside então em identificar quais as idades dos dois alunos centrais, para o que necessitamos da Frequência Acumulada. Vamos observar o seguinte raciocínio: A primeira classe (17 anos) contém do 1º ao 3º (F1=3) alunos. A segunda classe (18 anos) contém do 4º até o 21º (F2=21) alunos. A terceira classe (19 anos) contém do 22º até o 38º (F3=38) alunos. Pergunta-se: em qual classe está o 25º aluno? E o 26º? Se a 3ª classe agrupa do 22º até o 38º alunos, então o 25º e o 26º estão nesta classe. Assim, o 25º aluno está na 3ª classe e possui 19 anos e o 26º aluno também está na 3ª classe e também possui 19 anos. Resumindo: Elementos centrais Idades 25º aluno tem 19 anos. 26º aluno tem 19 anos. Logo, Md=19 anos (média de 19 anos e 19 anos). Suponha agora que na turma acima, tenham ingressado 4 alunos com 20 anos e 3 alunos com 21 anos. A nova DF da turma passaria a ser: 39 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e xi fi Fi 17 3 3 18 18 21 19 17 38 20 12 50 21 7 57 Σ 57 Qual seria a nova MEDIANA? Como agora n é ímpar, existe um único valor central, que é o elemento de ordem (57+1)/2 = 29º. Qual a classe que contém o 29º aluno? Observa-se que o 29º aluno está na 3ª classe. Qual a IDADE do 29º aluno? A idade do 29º aluno é 19 anos. Logo, Md=19 anos (idade do elemento central único). 8.3.Dados agrupados com Intervalos Vamos considerar o exemplo de DF da variável contínua Salário de horas extras (por hora) dos Médicos do hospital X. Salários(Mtn) fi 200 |---- 300 2 300 |---- 400 3 400 |---- 500 13 500 |---- 600 11 600 |---- 700 9 700 |---- 800 2 Σ 40 8.3.1. Cálculo da Média A fórmula de cálculo neste caso, é idêntica à fórmula para dados agrupados sem intervalos, com a diferença de que aqui estaremos (por convenção) assumindo que a frequência da classe ocorre para o ponto médio da classe. 40 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e �̅� = 𝑓1𝑥1 + 𝑓2𝑥2 + ⋯ + 𝑓𝑛𝑥𝑛 𝑛 𝑜𝑢 �̅� = ∑ 𝑓𝑖𝑥𝑖 𝑛 𝑖=1 𝑛 = ∑ 𝑓𝑖 𝑛 ∗ 𝑥𝑖 = ∑ 𝑓𝑟𝑖𝑥𝑖 𝑛 𝑖=1 𝑛 𝑖=1 = ∑ 𝑥𝑖𝑓𝑖 𝑛 𝑖=1 ∑ 𝑓𝑖 𝑛 𝑖=1 onde xi são os pontos médios dos intervalos de classes fi são as frequências simples associadas a cada xi n é o nº de elementos na amostra, que é igual à soma das frequências fi Observe que, como no caso de DF sem intervalos, aqui também já possuímos o valor da soma das frequências if , que é o denominador da equação de cálculo da média. Falta encontrar o valor do numerador da equação representado por ii fx . Ocorre que neste caso, xi representa os pontos médios das classes, o que vai requerer agora a abertura de duas colunas auxiliares na DF anterior: uma coluna para cálculo de xi e outra para cálculo dos produtos xi.fi para cada intervalo de classe. Observe abaixo. Salários(Mtn) fi xi xi.fi 200 |---- 300 2 250 500 300 |---- 400 3 350 1050 400 |---- 500 13 450 5850 500 |---- 600 11 550 6050 600 |---- 700 9 650 5850 700 |---- 800 2 750 1500 Σ 40 20800 Logo, 40 20800 f fx x i ii = Mtn 520,00 41 |E s t a t í s t i c a D e s c r i t i v a , E d u a r d o S i t o e Exemplo: A média de peso ao nascer de nascidos vivos. Tabela Nascidos vivos segundo o peso ao nascer, em quilogramas. Classe Frequência 1,5 ⊢ 2,0 3 2,0 ⊢ 2,5 16 2,5 ⊢ 3,0 31 3,0 ⊢ 3,5 34 3,5 ⊢ 4,0 11 4,0 ⊢ 4,5 4 4,5 ⊢ 5,0 1 Solução Classes 𝑥𝑖 𝑓𝑖 𝑥𝑖 ∗ 𝑓𝑖 1,5 ⊢ 2,0 1,75 3 5,25 2,0 ⊢ 2,5 2,25 16 36 2,5 ⊢ 3,0 2,75 31 85,25 3,0 ⊢ 3,5 3,25 34 110,5 3,5 ⊢ 4,0 3,75 11 41,25 4,0 ⊢ 4,5 4,25 4 17 4,5 ⊢ 5,0 4,75 1 4,75 Total 100 300 A média é obtida dividindo 300 por 100, que dá 3, 00. �̅� = 300 100 = 3 ou seja, a média do peso ao nascer, nessa amostra, é 3,00 kg. Observação Importante Em virtude da aproximação feita de que os pontos médios dos intervalos representam o valor de todos os elementos contidos em cada
Compartilhar