Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Federal do Pará Instituto de Ciências Exatas e Naturais Estatística para Licenciatura em Matemática Organização: Profa. Marinalva Cardoso Maciel, Dra. (UFPA) Belém - Pará 2014 UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 2 UNIDADE 1 - CONCEITOS FUNDAMENTAIS 1.1. POR QUE ESTUDAR ESTATÍSTICA? A partir da publicação dos Parâmetros Curriculares Nacionais para o Ensino Fundamental (BRASIL, 1997, 1998), os currículos de Matemática do ensino fundamental incluíram um bloco de conteúdo abrangendo estatística, probabilidade e combinatória, que aparece sob a denominação de Tratamento da informação. A inclusão do tópico tratamento da informação nos currículos ocorreu não só no Brasil, mas em muitos outros países. Nos Estados Unidos, por exemplo, isso aconteceu, pelo menos, desde a publicação, pelo National Council of Teachers of Mathematics (NCTM) dos Standards, em 1989. Mais recentemente o NCTM divulgou os Principles and Standards, nos quais está incluído, com destaque, o bloco de conteúdos denominado Data Analysis and Probability (CAMPOS; LIMA, 2005). Nesse contexto faz-se necessário uma maior ênfase da disciplina Estatística nos cursos de Licenciatura em Matemática, considerando o grande desafio que é ensinar esses conteúdos na escola básica, porque tais conteúdos não estavam sendo tratados adequadamente nos cursos de formação inicial de professores, só estavam sendo tratados nos programas de formação continuada. Além disso, a pesquisa na área de Educação Matemática encontra-se em ascensão, e em alguma fase de seu trabalho, o pesquisador ou profissional se vê às voltas com o problema de analisar e entender um conjunto de dados. Muitas vezes ele necessitará resumir os dados para que sejam informativos, ou para compará-los com outros resultados, ou ainda para julgar sua adequação a alguma teoria. A estatística é fundamental na análise de dados provenientes de quaisquer processos onde exista incerteza. 1.2. O QUE É ESTATÍSTICA? A palavra estatística provém do latim status (estado) e é comumente associada a censos, pesquisas de opinião pública, aos vários índices governamentais, aos gráficos e medidas publicadas diariamente na imprensa. Na realidade, como veremos adiante, a estatística engloba muitos outros aspectos Vários autores têm procurado definir a Estatística. Existem muitos livros sobre estatística, todos contendo definições, desde as mais simples até as mais complexas. A que se verá a seguir é a anunciada por Dugé de Bernonville, e que julga-se ser simples e fácil de ser memorizada: “Estatística é um conjunto de métodos e processos quantitativos que serve para estudar e medir os fenômenos coletivos”. A Estatística pode ser dividida em duas áreas: 1.2.1. Estatística Descritiva: é a parte da Estatística que tem por objeto descrever os dados observados. 1.2.2. Estatística Indutiva (Inferência Estatística): é a parte da Estatística que tem por objetivo obter e generalizar conclusões para a população a partir de uma amostra, por meio do cálculo de probabilidade. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 3 Portanto, pode-se dizer que a Estatística tem por objetivo o estudo dos fenômenos coletivos e das relações que existem entre eles. Entende-se como fenômeno coletivo aquele que se refere a um conjunto de elementos, pois a estatística busca encontrar leis de comportamento para todo o conjunto e não se preocupa com cada um dos elementos em particular. 1.3. POPULAÇÃO, CENSO E AMOSTRA 1.3.1. População ou Universo (N): é o conjunto constituído de elementos (indivíduos, objetos, imóveis, etc.), que possuem alguma característica em comum, num determinado instante/período de tempo. A população, segundo o seu tamanho, pode ser finita ou infinita. É finita quando possui um número determinado de elementos; a população infinita possui um número infinito de elementos. Contudo tal definição existe apenas no campo teórico, uma vez que na prática, nunca encontraremos populações com infinitos elementos e sim com grande número de componentes e, tais populações são tratadas como infinitas. Os estudos destas populações podem ser feito de duas formas: 1.3.2. Censo: é a coleta exaustiva das informações de todas as unidades (elementos) da população em estudo. Na maioria das vezes, devido ao alto custo, ao intenso trabalho e ao tempo desprendido, limitam-se as observações referentes a uma determinada pesquisa a apenas uma parte da população que denominamos de amostra. 1.3.3. Amostra (n): é uma parte representativa da população (subconjunto finito), selecionado adequadamente para estudo, onde a seleção depende do processo denominado de amostragem. 1.3.4. Amostragem: É o processo de coleta das informações de parte da população, chamada amostra, mediante métodos adequados de seleção destas unidades. 1.4. TIPOS DE AMOSTRAGEM E CÁLCULO AMOSTRAL Quando se deseja colher informações sobre um ou mais aspectos de um grupo grande ou numeroso, verifica-se, muitas vezes, ser praticamente impossível fazer um levantamento do todo. Daí a necessidade de investigar apenas uma parte desse todo. O problema da amostragem é, portanto, escolher uma parte, de tal forma que ela seja a mais representativa possível do todo e, a partir dos resultados obtidos, relativos a essa parte, poder inferir, o mais legitimamente possível, os resultados do todo, se esta fosse verificada. Apresenta-se a seguir um resumo dos quatro métodos mais usuais em amostragem probabilística. 1.4.1. Amostragem Aleatória Simples (AAS): consistem em selecionar n unidades amostrais de modo que cada unidade tenha a mesma chance de ser escolhida. Em geral quando se tem características diferentes não se deve fazer a AAS, ou seja, a população deve ser homogênea. Na prática, a amostra aleatória simples é escolhida unidade por unidade. As unidades da população são numeradas de 1 a N. Em seguida, escolhe-se uma série de números aleatórios, por meio de uma UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 4 tabela de números aleatórios, geradores de números aleatórios (software ou calculadora científica) ou colocando-se todos os números dentro de uma urna, retirando-se uma a uma, sem reposição, até completar a amostra de tamanho n. 1.4.2. Amostragem Aleatória Estratificada (AAE): consiste em subdividir a população em grupos homogêneos (denominados estratos) segundo a(s) variável(is) de interesse. Os estratos têm por objetivo controlar a variabilidade (menor variabilidade), assim consegue-se diminuir o tamanho da amostra. O método de estratificação mais comum é o proporcional, onde o tamanho dos estratos amostrais são proporcionais ao tamanho de cada estrato (h) na população (Nh), levando-se em consideração o peso Wh de cada estrato. Porém, pode-se selecionar a amostra uniformemente, onde o tamanho dos estratos são iguais. 1.4.3. Amostragem Aleatória de Conglomerados (AAG): neste caso, as unidades amostrais são conglomerados (quarteirões, escolas, blocos de apartamento, etc). Os conglomerados devem ser homogêneos entre si e heterogêneos dentro, segundo a variável de interesse. A seleção dos conglomerados deve ser feita a partir da amostragem aleatória simples, já que os conglomerados são homogêneos. 1.4.4. Amostragem Sistemática (AS): é uma variação da AAS, onde a população ou a relação de seus componentes deve ser ordenada, de formatal que cada elemento seja identificado, unicamente, pela posição. A AS é eficiente à medida que a relação (ou “listagem”, fila, a disposição dos prédios etc...) esteja “misturada” no que se refere à característica em estudo. Suponha por exemplo que o total populacional seja dado por N = nk, onde n é o tamanho da amostra e k é o comprimento do intervalo entre as observações amostradas. Neste caso, seleciona- se inicialmente um valor r entre 1 e k (inclusive), para ser o “chute” inicial, ou seja, a primeira observação a ser selecionada, onde nNk e a partir daí considera-se todos os elementos em intervalos de k unidades. Isto é, seleciona-se os elementos r, r + k, r + 2k, e assim sucessivamente, até que se complete o tamanho da amostra (r + (n-1)×k). Por exemplo, considerando uma população de 150 fichas de alunos, para selecionar uma amostra sistemática de 10 fichas tem-se que k = 15 e se a primeira unidade selecionada for a de número r = 10, as seguintes serão as fichas de número 25, 40, 55, 70, 85, 100, 115, 130, 145. 1.4.5. Tamanho Mínimo de Amostra Uma maneira fácil de obter a amostra é por meio da fórmula a seguir 0 0 nN nN n (1) onde N é o tamanho da população e n0 é a primeira aproximação do tamanho da amostra, obtido por 20 1 E n . Sendo que E é o erro amostral máximo tolerável. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 5 Observação: quando não se conhece o N (tamanho da população), pode-se considerar a população como infinita, e neste caso é suficiente considerar o tamanho da amostra (n) como sendo igual a 0n . A Figura 1 mostra que para um erro amostral fixo (E), a medida que o tamanho da população cresce, o tamanho amostral (n) tende para o tamanho amostral mínimo ( 0 n ). Desta forma, não é correta retirar amostras estabelecendo-se percentuais da população. Figura 1: Representação gráfica do tamanho da população (N) em função do tamanho da amostra (n), fixando o erro amostral (E). No caso da Amostragem Aleatória Estratificada Proporcional, deve-se calcular o tamanho amostral dentro de cada estrato (h), sendo dado por N N nn hh , onde n é obtido pela Equação (1), hN é o total populacional do estrato h e N é o tamanho total da população. Já no caso da Amostragem Aleatória Estratificada Uniforme, deve-se calcular o tamanho da amostra para cada estrato (h) a partir de m n n h , com .,,1 mh Exemplo: Com o objetivo de conhecer algumas características dos alunos de uma escola com N alunos. Supondo que seja de interesse realizar um levantamento por amostragem para avaliar diversas características da população de alunos desta escola. Qual deve ser o tamanho mínimo ( 0n ) e o tamanho corrigido (n) da amostra, tal que se possa admitir, com alta confiança, que os erros amostrais não ultrapassem 4% (E = 0,04). Calcule para: a) N = 35 alunos; b) N = 200 alunos; c) N = 200:000 alunos. Observe que para manter o mesmo erro amostral, no item a) foi necessária uma amostra abrangendo quase 100% da população; enquanto que no item b) a amostra abrange 76%; e no item n0 UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 6 c) abrange apenas 0,3% da população. É, portanto, errônea a ideia de que para uma amostra ser representativa deva abranger uma percentagem fixa da população. Exemplo: Suponha que em uma região existam 6.000 alunos de Ensino Fundamental, 3.000 do Ensino Médio e 1.000 do Ensino Superior. Para selecionar uma amostra de 250 alunos: a) Utilizando uma amostragem aleatória simples: Para selecionar uma amostra aleatória simples deve-se garantir que a população a ser estudada é homogênea, ou seja, esta população não pode ser subdividida em relação a alguma característica em comum. Considerando que isso seja verdade, ou seja, que a população de 10.000 estudantes é homogênea seleciona-se uma amostra de 250 alunos, enumerando-se a população de 1 a 10.000 e fazendo um sorteio aleatório de 250 alunos. b) Utilizando uma amostragem estratificada: Considerando agora que a população estudada é subdividida em estrato, ou seja, é heterogênea em relação aos tipos de ensino fundamental, médio e superior. Desta forma, pode-se estabelecer a amostra a partir de dois métodos: b1) AAE Uniforme: m = 3 (número de estratos), h = 1, 2, 3, n = 250 (tamanho da amostra). nh = 250 / 3 = 83 estudantes. Relaciona-se os alunos de acordo com a escolaridade e seleciona-se, por amostragem aleatória simples ou sistemática, os 83 estudantes de cada estrato. b2) AAE Proporcional: m = 3 (número de estratos), h = 1, 2, 3 n = 250 (tamanho da amostra). lfundamenta ensino do alunos 15060,0250 10000 6000 2501n médio ensino do alunos 7530,0250 10000 3000 250 2 n superior. ensino do alunos 2510,0250 10000 1000 250 3 n Relaciona-se os alunos de acordo com a escolaridade e seleciona-se, por amostragem aleatória simples ou sistemática. b3) Utilizando-se amostragem sistemática para selecionar os alunos: Enumera-se os 10.000 alunos por algum critério. Para selecionar n = 250, então k = 10.000 / 250 = 40. Seleciona-se um número de 1 a 40, digamos 20. Então, as unidades amostrais serão: 20 o , 60 o , 100 o , 140 o , ..., 9980 o (20+249×40). UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 7 1.5. VARIÁVEL A estatística ocupa-se fundamentalmente das propriedades das populações cujas características são passíveis de representação. A característica que interessa analisar é chamada de variável. Variável: é convencionalmente o conjunto de resultados possíveis de um fenômeno, conjunto este chamado domínio da variável. As variáveis podem ser divididas em dois tipos: qualitativas e quantitativas. Variável Qualitativa: quando o resultado da observação é apresentado na forma de qualidade ou atributo. Exemplo: sexo, estado civil, grau de escolaridade, cor dos olhos, etc. Pode ser subdividida em nominal e ordinal. Nominal: assume resultados em categorias ou atributos sem ordenação. Exemplo: Gênero, cor dos olhos. Ordinal: assume resultados em categorias que podem ser naturalmente ordenados. Exemplo: Escolaridade, dia da semana, faixa etária, faixa salarial, etc. Variável Quantitativa: quando o resultado da observação é expresso em números. Exemplo: número de empregados, número de imóveis, salário, altura, peso, etc. A variável quantitativa pode ser: Contínua: quando assume qualquer valor entre dois limites e que resultam normalmente de uma mensuração. Exemplo: peso (em Kg), altura (em cm), idade, salário (em R$), temperatura (em o C), etc. Discreta: quando assume valores inteiros, inclusive zero e que resultem, frequentemente de uma contagem. Exemplo: número de alunos, número de filhos, tamanho da família, etc. Quadro 1: Esquema de classificação de variáveis. Variável Qualitativa Nominal Ordinal Quantitativa Discreta Contínua Exercício: Classifique as variáveis abaixo: a) Número de filhos dos funcionários de uma escola. b) Altura dos estudantes da turma A do Ensino Fundamental de uma escola. c) Cor dos cabelos dos alunos de uma faculdade. d) Salário dos professores de uma escola. e) Número de indivíduos nas famílias dos moradores de um conjunto residencial. f) Estado civil dos funcionários de uma escola. g) Comprimento dos pregos produzidos por uma máquina. h) Número de peças defeituosasfabricadas por uma máquina diariamente. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 8 1.6. ARREDONDAMENTO DE DADOS Conforme IBGE (1993) deve-se utilizar as seguintes regras de arredondamento: 1.6.1. Regra I - Se o 1º algarismo a ser abandonado for menor que “5” o último a permanecer fica inalterado. Exemplo: Arredondar para centésimos os números abaixo. a) 47,3227 47,32 b) 0,29364 0,29 c) 53,77474 53,77 d) 30,00132 30,00 1.6.2. Regra II - Se o último algarismo a permanecer for maior ou igual a “5” será acrescido de uma unidade o algarismo a permanecer. Exemplo: Arredondar para décimos os números abaixo. a) 1,4632 1,5 b) 23,09425 23,1 c) 38,97777 39,0 d) 74,28583 74,3 Ajustamento: quando temos parcelas de percentagem que sofreram arredondamento, pode ocorrer de o resultado não somar 100%. Neste caso é necessário fazer o ajustamento, adicionando-se ou subtraindo-se, conforme o caso, à parcela maior. Em caso de empate não deve ser acrescentado o décimo faltante a nenhuma das parcelas, por exemplo, Classe A: 33,33%, Classe B: 33,33% e Classe C: 33,33%. Exemplo: Arredondar para décimos as parcelas abaixo as ajustando se for o caso. 40,457% 40,5 19,199% 19,2 13,535% 13,5 26,643% 26,6 40,7 19,2 13,5 26,6 99,8 100,0% UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 9 UNIDADE 2 - FASES DO TRABALHO ESTATÍSTICO 2.1. FASES DO TRABALHO ESTATÍSTICO 1 a . DEFINIÇÃO DO PROBLEMA: Saber exatamente aquilo que se pretende pesquisar, ou seja, definir corretamente o problema. 2 a . PLANEJAMENTO: Como levantar informações? Que dados devem ser obtidos? Qual levantamento a ser utilizado? Censitário? Por amostragem? E o cronograma de atividades? Os custos envolvidos? etc. 3 a . COLETA DE DADOS: Fase operacional. É o registro sistemático de dados, com um objetivo determinado. i) Dados primários: quando são publicados pela própria pessoa ou organização que os haja recolhido. Exemplo: tabelas do censo demográfico do IBGE. ii) Dados secundários: quando são publicados por outra organização. Exemplo: quando determinado jornal publica estatísticas referentes ao censo demográfico extraídas do IBGE. Obs.: É mais seguro trabalhar com fontes primárias. O uso da fonte secundária traz o grande risco de erros de transcrição. iii) Coleta Direta: quando é obtida diretamente da fonte. Exemplo: Empresa que realiza uma pesquisa para saber a preferência dos consumidores pela sua marca. A coleta direta dos dados pode ser: Coleta contínua: registros de nascimento, óbitos, casamentos; Coleta periódica: recenseamento demográfico, censo industrial; Coleta ocasional: registro de casos de dengue. iv) Coleta indireta: É feita por deduções a partir dos elementos conseguidos pela coleta direta, por analogia, por avaliação, indícios ou proporcionalização. 4 a . APURAÇÃO E CRÍTICA DOS DADOS: Resumo dos dados a partir de sua contagem e agrupamento. É a condensação e tabulação de dados. 5 a . APRESENTAÇÃO DOS DADOS: Há duas formas de apresentação, que não se excluem mutuamente. A apresentação tabular, ou seja, é uma apresentação numérica dos dados em linhas e colunas distribuídas de modo ordenado, segundo regras práticas fixadas pelo Conselho Nacional de Estatística. A apresentação gráfica dos dados numéricos constitui uma apresentação geométrica permitindo uma visão rápida e clara do fenômeno. 6 a . ANÁLISE E INTERPRETAÇÃO DOS DADOS: A última fase do trabalho estatístico é a mais importante e delicada. Está ligada essencialmente ao cálculo de medidas e coeficientes, cuja finalidade principal é descrever o fenômeno (estatística descritiva). Também podem ser feitas generalizações (inferências) e previsões. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 10 7 a . APRESENTAÇÃO DE RELATÓRIO FINAL: Esta fase representa a finalização do trabalho estatístico. Nela, deve-se apresentar um relatório técnico com a metodologia adotada, os resultados encontrados e as conclusões possíveis de serem apresentadas. 2.2. ELABORAÇÃO DE QUESTIONÁRIOS Um questionário é um instrumento para levantar informações a que se deve responder sem a interferência do avaliador/pesquisador. Geralmente usa-se o termo “questionário” para designar qualquer instrumento de coleta de informações. No entanto, quando este instrumento é preenchido pela população-alvo da avaliação o termo técnico para designá-lo é “formulário”. Existem diversos tipos de questionários e nenhum deles pode ser considerado como ideal para coletar todos os tipos de informações. Antes de iniciar qualquer questionário (ou entrevista) devem-se analisar quais os objetivos da pesquisa, pois eles indicarão os tipos de perguntas mais adequadas a cada situação. As perguntas do questionário devem dar subsídios para responder aos objetivos. Após análise e definição do que realmente se deseja, inicia-se o processo de elaboração do questionário. É muito importante procurar informações a respeito de questionários já utilizados para fazer as mesmas perguntas que se pretende. Provavelmente na revisão de literatura tem-se conhecimento de outros estudos do mesmo assunto ou parecidos. Aproveite essa experiência prévia de outras pessoas para aprimorar o seu conhecimento. Talvez não seja possível utilizar o questionário integralmente, já que pode haver perguntas que não se adaptam as necessidades da pesquisa atual. Nesses casos, utilize as questões de interesse e elabore as demais perguntas necessárias, tomando os devidos cuidados. O motivo de utilizar outros questionários garante que se utilizem perguntas já testadas, facilitando assim que os resultados sejam comparáveis. Os seguintes itens devem ser observados na elaboração de novas perguntas: Clareza da Pergunta: A pergunta deve conter o mínimo de informações possíveis para que seja compreensível e não deixe margem para dúvidas. Adequação da Linguagem: A pergunta deve possuir uma linguagem simples, que possa ser compreendida independentemente do grau de instrução do entrevistado. Objetividade: A pergunta deve ser curta e direta, enfatizando o ponto principal que se tem interesse. Perguntas confusas geram respostas incompletas ou em branco. Finalidade da Pergunta: Pergunte-se sempre: Por que você quer saber isso? É realmente necessária essa pergunta?. Uma vez definido o questionário e antes de ser utilizado na pesquisa, deve-se fazer o que se denomina “pré-teste”. O “pré-teste” serve para verificar se as perguntas estão formuladas de forma clara e se não há nenhum problema não previsto. É o momento de identificar possíveis erros no questionário. É importante que a coleta das variáveis seja da forma mais básica possível, pois isso facilita a tabulação, quantificação e análise dos resultados. Por exemplo, pergunte a idade em anos ou a data UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 11 de nascimento do entrevistado, ou pergunte a instrução em anos de estudo completos do entrevistado, entre outros. Tipos de questionários: Com questões fechadas: tem a vantagem de permitir respostas padronizadas que permitem comparação com outras avaliações. Também permite maior economia de recursos (por facilitar o tratamento e análise da informação e por exigir menor tempo). A desvantagem é que permite facilitar a resposta (por esta já ser oferecida)para um informante que não saberia ou que encontraria maior dificuldade em responder a uma determinada questão. Com questões fechadas e abertas: algumas questões abertas podem ser incluídas no questionário, quando não se sabem todas as respostas que se podem obter dos informantes. Dificuldades apontadas: Formular as perguntas com objetividade e clareza para atingir o objetivo; Escolher as questões mais relevantes, limitando o número, em relação ao perfil do entrevistado e ao tema; Elaborar as questões de forma a não constranger o entrevistado; Elaborar as questões sem “duplo sentido”; Fechar as questões; Elencar todas as alternativas de respostas possíveis (abrangentes, mas em número reduzido); Elaborar perguntas que não induzam a resposta; Trabalhar com intervalos de classe (categorização); Formular ou selecionar as perguntas atendendo ao foco (objetivo) da pesquisa; Fazer a categorização das respostas nas perguntas abertas; Uso de termos que parecem de fácil entendimento para o entrevistador, mas não o são para o entrevistado; Dificuldade no registro das respostas de perguntas abertas, principalmente quando o entrevistador é das séries iniciais (compromete a “fidelidade” dos dados obtidos?); Ordenação adequada das questões e das alternativas de respostas para uma não influenciar a outra ou para não induzir. O que deve ser evitado na elaboração do questionário: Não inclua duas perguntas em uma: isso leva a respostas que podem não ser relevantes ou podem ser induzidas, além de não se poder identificar a que questão ela se refere. De preferência não utilize questões com e, ou. Elas podem ser na verdade duas questões diferentes. Esteja certo de quando usar tal terminologia. Evite questões ambíguas: pelas palavras utilizadas; pelas expressões muito coloquiais ou por usar palavras muito difíceis para a compreensão do informante. Cada pergunta deve ser concreta e específica e permitir uma resposta também concreta. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 12 Não induza a resposta através do modo afirmativo da pergunta: por exemplo, ao perguntar sobre tabagismo, não diga: Você fuma? Mas sim: Você não fuma? Redobre a atenção ao formular perguntas que abordem assuntos delicados, muito íntimos ou incômodos para o informante. Antes de usar seu questionário faça um pré-teste com ele. Este teste deve ser feito com um informante com as mesmas características do informante-alvo da avaliação. O questionário não deve ser muito longo, mas também não precisa ser muito curto. Algumas sugestões na elaboração do questionário: Comece com as perguntas mais fáceis. Use uma ordem lógica para o informante no ordenamento das questões, variando por tamanho e tipo sempre que possível. Informações que são necessárias para outras perguntas devem vir primeiro. Se for utilizar questões abertas, estas devem vir no final, junto com questões que abordem temas mais delicados para o informante. Quando for necessário verificar a resposta do informante para uma questão mais delicada, faça a mesma pergunta na negativa mais adiante. Um exemplo: O aborto deve ser legalizado: Concordo__ Discordo__. E mais adiante no questionário: O aborto não deve ser legalizado: Concordo__ Discordo __. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 13 UNIDADE 3 - TABELAS ESTATÍSTICAS 3.1. TABELA: É um quadro, aberto nas laterais, que resume um conjunto de dados dispostos segundo linhas e colunas de maneira sistemática. 3.1.1. Principais Elementos de uma Tabela: a) Título da Tabela: localizado no topo da tabela, deve conter informações, as mais completas possíveis, respondendo às perguntas: O que?, Quando? e Onde?, além de conter a palavra “TABELA” e sua respectiva numeração. b) Corpo da Tabela: é o conjunto de linhas e colunas que contém informações sobre a variável em estudo, onde: # na parte superior da tabela tem-se o cabeçalho da coluna, que especifica o conteúdo das colunas; # verticalmente tem-se as colunas (indicadora e numérica), onde a coluna indicadora é aquela que especifica o conteúdo das linhas e na coluna numérica os valores numéricos destas linhas. c) Rodapé: localizado na parte inferior da Tabela (fora) e contém informações sobre o responsável pela informação (FONTE), algum texto esclarecedor a cerca do conteúdo da tabela (NOTA) e por fim algum símbolo remissível atribuído a algum elemento da tabela que necessite de uma nota (CHAMADA). Observação: Nenhuma casa deve ficar sem preenchimento. Todas devem ter o registro de algum número ou sinal: - (hífen): quando o valor numérico é nulo; ... (reticências): quando não se dispõe de dado; ? (ponto de interrogação): quando há dúvida sobre a exatidão do valor; 0; 0,0; ou 0,00 (zero), quando o valor numérico é pequeno para ser expresso pela unidade utilizada. Este deve conter o mesmo número de casas decimais padronizado pela tabela; x (letra x): quando o dado for omitido a fim de evitar individualização da informação. 3.1.2. Regras para Tabelas a) em artigos ou publicações que contenham muitas tabelas, estas serão numeradas em ordem crescente, conforme o aparecimento; b) tabelas são fechadas no alto e embaixo por linhas horizontais, mas não à esquerda e à direita por linhas verticais. Traços verticais para separar colunas no corpo da tabela podem ser empregados; c) uma vez definido um determinado número de casas decimais, esse número será mantido para todas as casas de modo a assegurar uniformidade na apresentação dos dados; d) totais e subtotais serão destacados. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 14 Tabela 1: Esquema de apresentação de uma tabela. Título: O que? Quando? Onde? Corpo da Tabela cabeçalho Coluna indicadora Coluna numérica Total Rodapé: fonte, notas, observações. 3.2. SÉRIE ESTATÍSTICA: É qualquer tabela que apresenta a distribuição de um conjunto de dados estatísticos em função da época, do local ou da espécie. 3.2.1. Série Temporal: Identifica-se pelo caráter variável do fator cronológico. O local e a espécie (fenômeno) são elementos fixos. Esta série também é chamada de histórica ou evolutiva. Tabela 2: Quantidade de alunos matriculados em uma escola, no 1º bimestre de 2011. Mês Quantidade Janeiro 20.000 Fevereiro 10.000 Total 30.000 Fonte: Dados fictícios, Março/2011. 3.2.2. Série Geográfica: Apresenta como elemento variável o fator geográfico. A época e o fato (espécie) são elementos fixos. Também é chamada de espacial, territorial ou de localização. Tabela 3: Quantidade de alunos matriculados em escolas públicas, no 1º bimestre de 2011, por cidade. Cidade Quantidade Marabá 13.000 Santarém 17.000 Belém 50.000 Total 80.000 Fonte: Dados fictícios, Março/2011. 3.2.3. Série Específica: O caráter variável é apenas o fato ou espécie. Também é chamada de série categórica. Tabela 4: Quantidade de carros vendidos da ABC Veículos LTDA, no 1º bimestre de 2011, por marca do carro. Marca Quantidade FIAT 18.000 GM 12.000 Chevrolet 10.000 Total 40.000 Fonte: Dados fictícios, Março/2011. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 15 3.2.4. Série Conjugada: Também chamada de tabela de dupla entrada ou série mista. São apropriadas à apresentação deduas ou mais séries de maneira conjugada, havendo duas ordens de classificação: uma horizontal e outra vertical. O exemplo abaixo é de uma série geográfica-temporal. Tabela 5: Quantidade de carros vendidos da ABC Veículos LTDA, no 1º bimestre de 2011 e por cidade da filial. Filial Mês Total Janeiro Fevereiro São Paulo 10.000 3.000 13.000 Rio de Janeiro 12.000 5.000 17.000 Total 22.000 8.000 30.000 Fonte: Dados fictícios, Março/2011. 3.2.6. Séries de Dados Agrupados ou Distribuição de Frequências Neste caso TODOS os elementos são fixos (época, local e fenômeno). A distribuição de freqüência pode ser por intervalo ou por pontos, dependendo da quantidade de informações que se tenha ou/e do tipo de variável. É um tipo de tabela que condensa uma coleção de dados conforme as frequências (repetições de seus valores). É utilizada quando se tem dados quantitativos discretos ou contínuos. (i) Distribuição de Frequência por Intervalos: é uma série estatística na qual a variável observada está dividida em subintervalos do intervalo total observado e o tempo, a espécie e a região permanecem fixos. Exemplo de Distribuição de Frequência por Intervalo: Tabela 6: Tempo de Estudo (em dias) de 160 alunos da Escola W, no ano de 2010. Tempo de Estudo (em dias) Número de Alunos (fi) Fi fri Fri Xi 1ª classe 2ª classe 3ª classe 4ª classe 5ª classe 6ª classe 10 |─ 20 20 |─ 30 30 |─ 40 40 |─ 50 50 |─ 60 60 |─ 70 38 45 30 22 10 15 160 Fonte: Dados Hipotéticos, JAN/2011. a) Construção de Distribuições de Frequências por Intervalos: 1º - Passo: montar o Rol (organizar os dados em ordem crescente ou decrescente). 2º- Passo: calcular a Amplitude Total da distribuição de frequência ( T), que é a diferença existente entre o maior (Xmáximo) e o menor valor (Xmínimo) observado. mínimomáximo XXT . UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 16 3º - Passo: Determinar o Número de Classes da Distribuição de Freqüência (K), que são os subintervalos nos quais são contadas as observações da variável. Existem varias maneiras de se calcular o número de classes, neste curso será utilizado o método prático. - Se n < 25, utiliza-se K=5 classes; - Se n ≥ 25, utiliza-se: nK . Observação: Sempre arredondar o valor de K seguindo as regras de arredondamento. 4º - Passo: calcular o intervalo de Classe ou Amplitude do Intervalo de Classe (h), que é o comprimento da classe. (geralmente este valor é fornecido): K T h . 5º - Passo: Construção das Classes 1ª Classe Limite Inferior = menor valor do Rol Limite Superior = Limite Inferior da 1ª Classe + Valor do Intervalo de classe 2a Classe Limite Inferior = Limite Superior da 1ª Classe Limite Superior = Limite Inferior da 2ª Classe + Valor do Intervalo de classe ... ka Classe Limite Inferior = Limite Superior da (k-1)ª Classe Limite Superior = Limite Inferior da kª Classe + Valor do Intervalo de classe. Convenção: |─ inclui à esquerda e exclui à direita. ─| exclui à esquerda e inclui à direita. ─ exclui ambos. |─| inclui ambos. 6º - Passo: obtenção da Frequência Simples ou Frequência Absoluta da Classe ( iF ), que é o número de observações contadas dentro da classe. b) Tipos de Frequência b.1) Frequência Absoluta Acumulada de Classe (Fi): é a acumulação sucessiva, a partir da primeira classe até uma classe qualquer, das freqüências simples ou absoluta das classes. KK f...ffF ... ffF fF 21 212 11 b.2) Frequência Relativa de Classe (fri): é a relação existente entre a freqüência absoluta ou simples de classe e o número de observações da variável. K i i i i f f fr 1 UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 17 Obs.: 1º 1 i fr e 2º i fn . b.3) Frequência Relativa Acumulada ( i Fr ): é a acumulação sucessiva, a partir da primeira classe até uma classe qualquer das freqüências relativas das classes. kk fr...frfrFr ... frfrFr fr Fr 21 212 11 b.4) Ponto Médio de Classe ( iX ): é a média aritmética calculada entre o limite inferior ( il ) e o superior ( sl ) da classe. É o valor em estatística que representa os valores da variável dentro da classe. 2 )( si i ll X . (ii) Distribuição de Frequência por Pontos É uma série estatística na quais as freqüências observadas estão associadas a um ponto real observado. Na construção da distribuição por ponto, o numero linhas (classes) na tabela é igual ao número de pontos existentes, e utilizam-se os mesmos elementos da distribuição por intervalo, com a diferença que o próprio ponto já é o valor de Xi (ponto médio na distribuição por intervalo). Exemplo de Distribuição de Freqüência por Pontos: Tabela 07: Número de Dependentes dos Professores em Dezembro/2010. Dependentes (Xi) Professores (fi) Fi fri Fri 1º ponto 2º ponto 3º ponto 4º ponto 5º ponto 0 1 2 3 4 40 50 30 20 10 150 Fonte: Dados Hipotéticos, JAN/2011. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 18 UNIDADE 4 - REPRESENTAÇÃO GRÁFICA 4.1. GRÁFICOS ESTATÍSTICOS: São representações visuais dos dados estatísticos que devem corresponder, mas nunca substituir as tabelas estatísticas. Características: Uso de escalas, sistema de coordenadas, simplicidade, clareza e veracidade. Obs.: Uso indevido de gráficos: Podem trazer uma idéia falsa dos dados que estão sendo analisados, chegando mesmo a confundir o leitor. Trata-se, na realidade, de um problema de construção de escalas. Classificação dos gráficos: Diagramas, Estereogramas, Pictogramas e Cartogramas. 4.2. DIAGRAMAS: São gráficos geométricos dispostos em duas dimensões. São os mais usados na representação de séries estatísticas. Eles podem ser: 4.2.1. Gráficos em Colunas ou em Barras É a representação de uma série por meio de retângulos, dispostos verticalmente (em colunas) ou horizontalmente (em barras). Quando em colunas, os retângulos têm a mesma base e as alturas são proporcionais aos respectivos dados. E Quando em barras, os retângulos têm a mesma altura e os comprimentos são proporcionais aos respectivos dados. i) Exemplo de Gráfico em Colunas Figura 2: Percentual de Alunos Matriculados no Período de Janeiro de 2007 a Dezembro de 2010. ii) Exemplo de Gráfico em Barras Figura 3: Percentual de Alunos Matriculados no Ano de 2010, por Instituição de Ensino. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 19 Observação: A ordem a ser observada é a cronológica, se a série for histórica, e decrescente/crescente, se for geográfica ou categórica. 4.2.2. Gráficos em Colunas ou Barras Múltiplas Este tipo de gráfico é geralmente empregado quando deseja-se representar, simultaneamente, dois ou mais fenômenos estudados com o propósito de comparação. Figura 4: Quantidade de Alunos Aprovados e Reprovados no Período de Janeiro de 2007 a Dezembro de 2010. 0 100 200 300 400 500 600 700 2007 2008 2009 2010 387 247432 654 175 108 223 298 Qu an tid ad e de A lun os Ano Aprovados Reprovados Observação: Este tipo de gráfico pode ser feito em mais dimensões, quando isto ocorre este gráfico denomina-se Estereograma. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 20 4.2.3. Gráficos em Colunas ou Barras Empilhadas Eles diferem dos gráficos em barras ou colunas convencionais apenas pelo fato de apresentar cada barra ou coluna segmentada em partes componentes. Servem para representar comparativamente dois ou mais atributos. Figura 5: Quantidade de Alunos Matriculados, no Período de Janeiro de 2007 a Dezembro de 2010, por Turno. Figura 6: Percentual de Alunos Matriculados, no Período de Janeiro de 2007 a Dezembro de 2010, por Turno. 4.2.4. Gráficos em Linhas ou em Linhas Múltiplas UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 21 São frequentemente usados para representação de séries cronológicas com um grande número de períodos de tempo. As linhas são mais eficientes do que as colunas, quando existem intensas flutuações nas séries ou quando há necessidade de se representarem várias séries em um mesmo gráfico. Figura 7: Percentual de Desistência de Alunos: Escola XYZ, no Período de Agosto a Dezembro de 2010. Figura 8: Quantidade de Desistência de Aluno por Turno, nos meses de Agosto a Dezembro de 2010. 4.2.5. Gráficos em setores Este gráfico é construído com base em um círculo, e é empregado sempre que desejamos ressaltar a participação do dado no total. O total é representado pelo círculo, que fica dividido em tantos setores quantas são as partes. Os setores são tais que suas áreas são respectivamente UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 22 proporcionais aos dados da série. O gráfico em setores só deve ser empregado quando há, no máximo, cinco dados. Obs.: As séries temporais e variáveis qualitativas ordinais não podem ser representadas por este tipo de gráfico. Figura 9: Percentual de Alunos Matriculados em uma Escola Pública da Região Metropolitana de Belém, no Ano de 2011, por Gênero. 4.3. PICTOGRAMAS: São construídos a partir de figuras representativas da intensidade do fenômeno. Este tipo de gráfico tem a vantagem de despertar a atenção do público leigo, pois sua forma é atraente e sugestiva. Os símbolos devem ser auto-explicativos. A desvantagem dos pictogramas é que apenas mostram uma visão geral do fenômeno, e não de detalhes minuciosos. Veja o exemplo abaixo: Figura 10: População Matriculada no Ensino Fundamental, do Estado Pará, no Período de 2008 a 2011. 2008 2009 2010 2011 4.4. CARTOGRAMAS: São ilustrações relativas a cartas geográficas (mapas). O objetivo desse gráfico é o de figurar os dados estatísticos diretamente relacionados com áreas geográficas ou políticas. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 23 Figura 11: Percentual de Domicílios no Brasil com Automóveis de Uso Particular – 2011. 4.5. REPRESENTAÇÃO GRÁFICA DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA 4.5.1. Histograma: É a representação gráfica de uma distribuição de frequência, a partir de retângulos justapostos onde a base é colocada no eixo das abscissas corresponde ao intervalo das classes, e a altura é dada pela frequência absoluta (ou relativa) das classes. Figura 12: Exemplo de Histograma. 0 5 10 15 20 25 30 35 40 45 50 Tempo de Internações (dias) Fr eq ue nc ia S im pl es 10 20 30 40 50 60 70 Figura 13: Histograma dos salários pagos aos funcionários do Estado do Pará, no ano de 2000. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 24 0 0,05 0,1 0,15 0,2 0,25 0,3 Salário Fr eq uê nc ia 4.5.2. Polígono de Frequência: Unindo-se por linhas retas os pontos médios das bases superiores dos retângulos do histograma, obtemos o polígono de frequência. O polígono de frequência pode referir-se às frequências absolutas ou as relativas, conforme a escala no eixo vertical. O polígono de frequência pode ser montado sozinho (sem o histograma). Figura 14: Exemplo de Polígono de Freqüência. Figura 15: Polígono de frequência das idades de alunos da Escola Onésima – Santarém – 2010. 1 2 3 4 5 6 7 8 9 10 11 12 13 F re q u en ci a R el at iv a Salário em unidades monetárias 41 43 47 51 55 59 61 UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 25 0 5 10 15 20 25 30 35 40 45 50 2,5 6,5 10,5 14,5 18,5 22,5 26,5 30,5 Ponto Médio Fr eq uê nc ia s Obs.: Uma distribuição de frequências sem intervalos de classe é representada graficamente por um diagrama onde cada valor da variável é representado por um segmento de reta vertical e de comprimento proporcional à respectiva frequência. F re q u ên ci a UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 26 UNIDADE 5 - MEDIDAS DE POSIÇÃO São medidas representativas das características avaliadas pelos seus valores centrais, em torno dos quais tendem a concentrar-se os dados. Tais medidas possibilitam comparações de séries de dados pelo confronto de seus valores. As medidas de posição (ou tendência central) mais utilizadas são: média aritmética, moda e mediana. 5.1. MÉDIA ARITMÉTICA: X A média aritmética é obtida pela soma de todos os valores de uma variável X dividida pelo número total de observações (n): n X n XXX X n i i n 121 .... Exemplo: Sabendo-se que o atendimento diário em uma empresa de arquitetura, durante uma semana foi de 10, 14, 13, 15, 16, 18 e 12 pessoas, temos para atendimento médio diário na semana de: 14 7 12181615131410 X pessoas. Se os dados estão agrupados em uma distribuição de frequência, devem ser consideradas duas possibilidades: a) Sem intervalos de classe: Consideremos a distribuição relativa a 34 famílias de quatro filhos, tomando para variável o número de filhos do gênero masculino. Calcularemos a quantidade média de meninos por família: Nº. de meninos Nº. de famílias )( if 0 2 1 6 2 10 3 12 4 4 Total 34 Como as frequências são números indicadores da intensidade de cada valor da variável, elas funcionam como fatores de ponderação, o que nos leva a calcular a média aritmética ponderada, dada pela fórmula: k i i k i ii k kk f Xf fff XfXfXf X 1 1 21 2211 )( ... ... em que nf k i i 1 Que na prática pode ser determinado como: UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 27 xi fi xi.fi 0 2 0 1 6 6 2 10 20 3 12 36 4 4 16 Total 34 78 Logo k i i k i ii f fX X 1 1 78/34 = 2,3 2 b) Com intervalos de classe: Neste caso, convencionamos que todos os valores incluídos em um determinado intervalo de classe coincidem com o seu ponto médio, e determinamosa média aritmética ponderada por meio da fórmula com iX agora sendo o ponto médio da classe. Exemplo: Calcular a estatura média de bebês conforme a tabela abaixo. Estaturas (cm) Frequência )( if Ponto médio )( iX ii fX 50 |─ 54 4 52 208 54 |─ 58 9 56 504 58 |─ 62 11 60 660 62 |─ 66 8 64 512 66 |─ 70 5 68 340 70 |─ 74 3 72 216 Total 40 2.440 Aplicando a fórmula acima temos: 61 40 2440 1 1 f Xf X k i i k i ii . Logo: cmX 61 5.2. MEDIANA: Md Colocados os valores em ordem crescente de grandeza (rol), a mediana (Md) será o valor que ocupa a posição central da série de dados, ou seja, é o valor que divide a série em duas partes com números iguais de elementos. A mediana é preferível à média quando se está interessado em conhecer exatamente o centro da distribuição dos dados, ou ainda, quando os valores extremos podem afetar sensivelmente a média. O cálculo da mediana é feito sob duas condições: 5.2.1. A MEDIANA EM DADOS NÃO-AGRUPADOS Dada uma série de valores como, por exemplo: {5, 2, 6, 13, 9, 15, 10}. De acordo com a definição de mediana, o primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores: {2, 5, 6, 9, 10, 13, 15}. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 28 O valor que divide a série acima em duas partes iguais é igual a 9, logo a Md = 9. i) Método prático para o cálculo da Mediana: a) Se a série de dados tiver número ímpar de termos: O valor mediano será o termo que ocupa a posição central do rol, ou seja, o termo cuja posição é dada pela fórmula: (n + 1)/2 Ex: Calcule a mediana da série {1, 3, 0, 0, 2, 4, 1, 2, 5} 1º - ordenar a série {0, 0, 1, 1, 2, 2, 3, 4, 5} 2º - calcular a posição: n = 9 logo (n + 1)/2 é dado por (9+1) / 2 = 5, ou seja, o 5º elemento da série ordenada será a mediana. Portanto, a mediana será o 5º elemento, então Md = 2 b) Se a série dada tiver número par de termos: O valor mediano será a média aritmética dos valores centrais do rol, ou seja, os termos que ocupam a posição n/2 e n/2+1 Ex: Calcule a mediana da série {1, 3, 0, 0, 2, 4, 1, 3, 5, 6} 1º - ordenar a série {0, 0, 1, 1, 2, 3, 3, 4, 5, 6} 2º - calcular a posição: n = 10 logo a mediana será a média aritmética do termo que ocupa a posição n/2 = 10/2 =5, ou seja, o 5º termo e do termo que ocupa a posição n/2+1 = 10/2+1 = 6, ou seja, o 6º termo. No rol: 5º termo = 2 e 6º termo = 3 A mediana será a média aritmética do 5º e 6º termos da série, ou seja = (2+3) / 2 ou seja, Md = 2,5. 5.2.2. A MEDIANA EM DADOS AGRUPADOS a) Sem intervalos de classe: Neste caso, é o bastante identificar a frequência acumulada )(Fa imediatamente superior à metade da soma das frequências. A mediana será aquele valor da variável que corresponde a tal freqüência acumulada. Exemplo: conforme distribuição de frequências abaixo: Variável )( iX Frequência )( if Frequência acumulada )( i F 0 2 2 1 6 8 2 9 17 3 13 30 4 5 35 Total 35 - Quando o somatório das freqüências for ímpar o valor mediano será o termo que ocupa a posição dada pela fórmula: 2 1if Como o somatório das freqüências = 35 a fórmula ficará: (35+1)/2 = 18º termo. Localizando na coluna da variável (Xi), Md = 3. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 29 Quando o somatório das freqüências for par o valor mediano será a média aritmética dos valores centrais da distribuição, ou seja, os termos que ocupam a posição 2 if e 1 2 if Exemplo: Calcule a Mediana da distribuição de frequências abaixo: Variável )( iX Frequência )( if Frequência acumulada )( i F 12 1 1 14 2 3 15 1 4 16 2 6 17 1 7 20 1 8 total 8 - Localizando a posição da mediana na freqüência acumulada teremos: 8/2 = 4º termo e 8/2+1 = 5º termo. Localizando na coluna da variável (Xi), o 4º termo = 15 e o 5º termo = 16. Logo Md = (15 + 16) / 2 = 15,5 b) Com intervalos de classe: Devemos seguir os seguintes passos: 1º) Determinamos as freqüências acumuladas; 2º) Calculamos 2 if para localizar a classe mediana; 3º) Marcamos a classe correspondente à freqüência acumulada imediatamente superior à 2 if . Tal classe será a classe mediana; 4º) Calculamos a Mediana pela fórmula: h f Ff lMd i AcA k i i i 1 onde: il = Limite inferior da classe da mediana; AcAF = Freqüência acumulada anterior da classe da Md; if = Freqüência simples da classe da mediana; h = Intervalo de classe. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 30 Exemplo Classes Frequência )( if Frequência acumulada )( iFA 50 |─ 54 4 4 54 |─ 58 9 13 58 |─ 62 11 24 62 |─ 66 8 32 66 |─ 70 5 37 70 |─ 74 3 40 Total 40 1º Localizar a classe mediana: 20 2 40 2 if . A classe mediana será 58 |─ 62 2º Identificar os elementos da fórmula na classe mediana: il = 58; AcAF = 13; h = 4 e if = 11; 3º Substituindo esses valores na fórmula, obtemos: 54,604 11 .1320 58Md Obs: Esta mediana é estimada, pois não temos os 40 valores da distribuição. 5.3. MODA: Mo A moda (Mo) é o valor que ocorre com maior freqüência ou o valor que mais se repete. Quando a série de dados é tal que as freqüências são maiores nos extremos, ou quando se quer destacar um valor de alta freqüência ou quando se pretende obter uma medida rápida e aproximada da tendência central, a moda pode então, ser considerada para a interpretação dos dados. Com relação à moda, uma série de dados pode ser classificada em amodal (não possui moda), unimodal (possui apenas uma moda), bimodal (possui duas modas) ou multimodal (possui mais de duas modas). 5.3.1. A Moda quando os dados não estão agrupados A moda é facilmente reconhecida: basta, de acordo com definição, procurar o valor que mais se repete. Ex: Na série {7, 8, 9, 10, 10, 10, 11, 12} a moda é igual a 10. Há séries nas quais não exista valor modal, isto é, nas quais nenhum valor apareça mais vezes que outros. Ex: {3, 5, 8, 10, 12} não apresenta moda. A série é amodal. Em outros casos, pode haver dois ou mais valores de concentração. Dizemos, então, que a série tem dois ou mais valores modais. Ex: {2, 3, 4, 4, 4, 5, 6, 7, 7, 7, 8, 9 } apresenta duas modas: 4 e 7. A série é bimodal. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 31 5.3.2. A Moda quando os dados estão agrupados a) Sem intervalos de classe: Uma vez agrupados os dados, é possível determinar imediatamente a moda: basta localizar o valor da variável de maior frequência. Ex: Qual a temperatura mais comum medida no mês abaixo: Temperatura Frequência 0º C 3 1º C 9 2º C 12 3º C 6 Resp: 2º C é a temperatura modal, pois é a de maior freqüência. b) Com intervalos de classe: A classe que apresenta a maior freqüência é denominada classe modal. Pela definição, podemos afirmar que a moda, neste caso, é o valor dominante que está compreendido entre os limites da classe modal. O método mais simples para o cálculo da moda consiste em tomar o ponto médio da classe modal. Damos a esse valor a denominação de moda bruta. 2/)( sio llM onde il = limite inferior da classe modal e sl = limite superior da classe modal. Ex: Calcule a estatura modal conforme a tabela abaixo. Classes (em cm) Frequência54 |─ 58 9 58 |─ 62 11 62 |─ 66 8 66 |─ 70 5 Resposta: a classe modal é 58|─ 62, pois é a de maior freqüência. il = 58 e sl = 62 Mo = (58+62) / 2 = 60 cm (este valor é estimado, pois não conhecemos o valor real da moda). Método mais elaborado pela fórmula de CZUBER: h fff ff lM postantMo antMo io )(2 onde: il = Limite inferior da classe modal; Mof = Freqüência modal; antf = Freqüência simples anterior à classe modal; postf = Freqüência simples posterior à classe modal; h = Intervalo de classe. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 32 Exemplo: Calcule a Moda da tabela do exemplo anterior pelo processo de CZUBER 6,594 89112 911 58Mo Obs.: A moda é utilizada quando desejamos obter uma medida rápida e aproximada de posição ou quando a medida de posição deva ser o valor mais típico da distribuição. Já a média aritmética é a medida de posição que possui a maior estabilidade e a mediana é a medida mais central. 5.4. MEDIDAS SEPARATRIZES Além das medidas de posição que estudamos, há outras que, consideradas individualmente, não são medidas de tendência central, mas estão ligadas à mediana relativamente à sua característica de separar a série em partes que apresentam o mesmo número de valores. Essas medidas - os quartis, os decis e os percentis - são conhecidas pelo nome genérico de separatrizes. 5.4.1. QUARTIS - Qq Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Precisamos portanto de 3 quartis (Q1 , Q2 e Q3) para dividir a série em quatro partes iguais. Obs: O quartil 2 ( Q2 ) SEMPRE SERÁ IGUAL A MEDIANA DA SÉRIE. i) QUARTIS EM DADOS NÃO AGRUPADOS O método mais prático é utilizar o princípio do cálculo da mediana para os 3 quartis. Na realidade serão calculadas “3 medianas” em uma mesma série. Exemplo 1: Calcule os quartis da série: {5, 2, 6, 9, 10, 13, 15} - O primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores: {2, 5, 6, 9, 10, 13, 15} - O valor que divide a série acima em duas partes iguais é igual a 9, logo a Md = 9 que será = Q2 = 9. - Temos agora {2, 5, 6} e {10, 13, 15} como sendo os dois grupos de valores iguais proporcionados pela mediana (quartil 2). Para o cálculo do quartil 1 e 3 basta calcular as medianas das partes iguais provenientes da verdadeira Mediana da série (quartil 2). Logo em {2, 5, 6} a mediana é = 5. Ou seja: será o Quartil 2 = Q2 = 5 Em {10, 13, 15} a mediana é =13. Ou seja: será o Quartil 2 = Q2 = 13 Exemplo 2: Calcule os quartis da série: {1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13} A série já está ordenada, então calcularemos o Quartil 2 = Md = (5+6)/2 = 5,5 O quartil 1 será a mediana da série à esquerda de Md: {1, 1, 2, 3, 5, 5} Q1 = (2+3)/2 = 2,5 O quartil 3 será a mediana da série à direita de Md: {6, 7, 9, 9, 10, 13} UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 33 Q3 = (9+9)/2 = 9 ii) QUARTIS PARA DADOS AGRUPADOS EM CLASSES A fórmula para determinação dos quartis para dados agrupados é semelhante à usada para o cálculo da mediana. Passos para Determinação do Quartil ( qQ ): 1º passo: calcula-se a posição: 4 1 k i i fq p ; 2º passo: identifica-se a classe q Q pela coluna das Freqüências Acumuladas; 3º passo: Aplica-se a fórmula: h f F f q lQ iQq AcA k i i iQq q 4 1 , para q = 1, 2, 3 onde: qiQ l = Limite inferior da classe do Quartil; AcAF = Freqüência acumulada anterior da classe do Quartil; qiQ f = Freqüência simples da classe do Quartil; h = Intervalo de classe. Exemplo 3 - Calcule os quartis da tabela abaixo: Classes Frequência (fi) Frequência acumulada 50 |─ 54 4 4 54 |─ 58 9 13 58 |─ 62 11 24 62 |─ 66 8 32 66 |─ 70 5 37 70 |─ 74 3 40 Total 40 O quartil 2 = Md, logo: 20 4 402p . Logo.a classe mediana será 58 |─ 62 li = 58........... Faant = 13........... fi = 11........... hi = 4 Substituindo esses valores na fórmula, obtemos: MdQ 54,604 11 1320 582 UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 34 O quartil 1: 10 4 401p 66,564 9 410 541Q O quartil 3: 3. fi / 4 = 30 654 8 2430 623Q 5.4.2. DECIS - Dd A definição dos decis obedece ao mesmo princípio dos quartis, com a modificação da porcentagem de valores que ficam aquém e além do decil que se pretende calcular. A fórmula básica será: k× fi /10 onde k é o número de ordem do decil a ser calculado. Indicam-se os decis: D1, D2, ... , D9. Deste modo precisa-se de 9 decis para se dividir uma série em 10 partes iguais. De especial interesse é o quinto decil, que divide o conjunto em duas partes iguais. Assim sendo, o QUINTO DECIL É IGUAL AO SEGUNDO QUARTIL, que por sua vez É IGUAL À MEDIANA. Para D5 tem-se: 5. fi / 10 = fi / 2 Exemplo: Calcule o 3º decil da tabela anterior com classes. k= 3 onde 3x ( fi / 10) = 3 x 40/10 = 12. Este resultado corresponde a 2ª classe. 55,5755,3544 9 412 543D 5.4.3. PERCENTIL ou CENTIL Denomina-se percentis ou centis como sendo os noventa e nove valores que separam uma série em 100 partes iguais. Indicamos: P1, P2, ... , P99. É evidente que P50 = Md; P25 = Q1 e P75 = Q3. O cálculo de um centil segue a mesma técnica do cálculo da mediana, porém a fórmula será: k× fi / 100, onde k é o número de ordem do centil a ser calculado. Para P45 temos: 45× fi / 100 Ex: Calcule o 45º Centil da tabela anterior com classes. Relação entre as Medidas Separatrizes: Uma relação importante entre as quatro Medidas Separatrizes é na verdade uma relação até visual, que não precisamos fazer esforço para percebê-la, basta traçar uma reta horizontal (que representará o conjunto de dados), e depois fazer as divisões, exatamente como mostramos nas seções anteriores, como pode ser visto a seguir: |-------------------|-------------------| Md |---------|---------|---------|---------| Q1 Q2 Q3 |---|---|---|---|---|---|---|---|---|---| D1 D2 D3 D4 D5 D6 D7 D8 D9 |---|---|---|---|---|---|---|---|---|---| P10 P20 P30 P40 P50 P60 P70 P80 P90 Daí, concluí-se sem maiores dificuldades que: 5052 PDQMd UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 35 UNIDADE 6 - MEDIDAS DE DISPERSÃO 6.1. MEDIDAS DE DISPERSÃO ABSOLUTA 6.1.1. AMPLITUDE TOTAL: É a única medida de dispersão que não tem na média o ponto de referência. Quando os dados não estão agrupados a amplitude total é a diferença entre o maior e o menor valor observado: MínMáxT XXA . Exemplo: Para os valores 40, 45, 48, 62 e 70 a amplitude total será: TA = 70 – 40 =30 Quando os dados estão agrupados sem intervalos de classe ainda temos: MínMáxT XXA . Exemplo: Xi fi 0 1 3 4 2 6 5 3 TA = 4 - 0 = 4 * Com intervalos de classe a AMPLITUDE TOTAL é a diferença entre o limite superior da última classe e o limite inferior da primeira classe. Então: MínMáxT LLA Ex: Classes fi 4 |─ 6 6 |─ 8 8 |─10 6 2 3 TA = 10 – 4 = 6 A amplitude total tem o inconveniente de só levar em conta os dois valores extremos da série, descuidando do conjunto de valores intermediários. Faz-se uso da amplitude total quando se quer determinar a amplitude datemperatura em um dia, no controle de qualidade ou como uma medida de cálculo rápido sem muita exatidão. 6.1.2. DESVIO QUARTIL: Também chamado de amplitude semi-interquatílica e é baseada nos quartis. Símbolo: qD e a Fórmula: 2/)( 13 QQDq UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 36 Observações: 1 - O desvio quartil apresenta como vantagem o fato de ser uma medida fácil de calcular e de interpretar. Além do mais, não é afetado pelos valores extremos, grandes ou pequenos, sendo recomendado, por conseguinte, quando entre os dados figurem valores extremos que não se consideram representativos. 2 - O desvio quartil deverá ser usado preferencialmente quando a medida de tendência central for a mediana. 3 - Trata-se de uma medida insensível à distribuição dos itens menores que Q1, entre Q1 e Q3 e maiores que Q3. Exemplo: Para os valores: 40, 45, 48, 62 e 70 o desvio quartil será: Q1 = (45+40)/2 = 42,5 Q3 = (70+62)/2 = 66 Dq = (66 - 42,5) / 2 = 11,75 6.1.3, DESVIO MÉDIO ABSOLUTO – DM i) Para dados brutos: É a média aritmética dos valores absolutos dos desvios tomados em relação a uma das seguintes medidas de tendência central: média ou mediana. a) para a Média = n n i xix DM 1 )( b) para a Mediana = n n i Mdix DM 1 )( c) As barras verticais indicam que são tomados os valores absolutos, prescindindo do sinal dos desvios. Exemplo: Calcular o desvio médio do conjunto de números {- 4, - 3, - 2, 3, 5} X = - 0, 2 e Md = - 2 Tabela auxiliar para cálculo do desvio médio Xi - 4 (- 4) - (-0,2) = -3,8 3,8 (- 4) - (-2) = - 2 2 - 3 (- 3) - (-0,2) = -2,8 2,8 (- 3) - (-2) = - 1 1 - 2 (- 2) - (-0,2) = -1,8 1,8 (- 2) - (-2) = 0 0 3 3 - (-0,2) = 3,2 3,2 3 - (-2) = 5 5 5 5 - (-0,2) = 5,2 5,2 5 - (-2) = 7 7 = 16,8 = 15 Pela Média: Dm = 16,8 / 5 = 3,36 Pela Mediana: Dm = 15 / 5 = 3 UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 37 6.1.4. DESVIO PADRÃO - S É a medida de dispersão mais geralmente empregada, pois leva em consideração a totalidade dos valores da variável em estudo. É um indicador de variabilidade bastante estável. O desvio padrão baseia-se nos desvios em torno da média aritmética e a sua fórmula básica pode ser traduzida como: a raiz quadrada da média aritmética dos quadrados dos desvios e é representada por: n XX S i 2)( A fórmula acima é empregada quando tratamos de uma população de dados não- agrupados. Exemplo: Calcular o desvio padrão da população representada por {-4, -3, -2, 3, 5}. Como X = - 0,2, então: - 4 - 3,8 14,44 - 3 - 2,8 7,84 - 2 - 1,8 3,24 3 3,2 10,24 5 5,2 27,04 = 62,8 Sabe-se que n = 5 e 62,8 / 5 = 12,56. 54,356,12 5 8,62)( 2 n XX S i Obs: Quando nosso interesse não se restringe à descrição dos dados, mas partindo da amostra, visamos tirar inferências válidas para a respectiva população, convém efetuar uma modificação, que consiste em usar o divisor n - 1 em lugar de n. A fórmula ficará então: 1 )( 2 n XX S i Se os dados {- 4 , -3 , -2 , 3 , 5} representassem uma amostra o desvio padrão amostral será a raiz quadrada de 62,8 / (5 -1) = 3,96. O desvio padrão detém algumas propriedades, dentre as quais destacamos: 1ª: Somando-se (ou subtraindo-se) uma constante a todos os valores de uma variável, o desvio padrão não se altera. 2ª: Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante (diferente de zero), o desvio padrão fica multiplicado ( ou dividido) por essa constante. Quando os dados estão agrupados (temos a presença de freqüências) a fórmula do desvio padrão será: i ii f fXX S 2)( ou 1 )( 2 i ii f fXX S quando se trata de uma amostra. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 38 Ex: Calcule o desvio padrão populacional da tabela abaixo: Xi f i Xi . f i 0 2 0 -2,1 4,41 8,82 1 6 6 -1,1 1,21 7,26 2 12 24 -0,1 0,01 0,12 3 7 21 0,9 0,81 5,67 4 3 12 1,9 3,61 10,83 Total 30 63 32,70 Sabe-se que 30if e 32,7 / 30 = 1,09. A raiz quadrada de 1,09 é o desvio padrão = 1,044 Se considerar os dados como sendo de uma amostra o desvio padrão será a raiz quadrada de 32,7 / (30 -1) = 1,062. Obs.: Nas tabelas de freqüências com intervalos de classe a fórmula a ser utilizada é a mesma do exemplo anterior. 6.1.5. VARIÂNCIA - 2S É o desvio padrão elevado ao quadrado. A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é extremamente importante na inferência estatística e em combinações de amostras. 6.2. MEDIDA DE DISPERSÃO RELATIVA 6.2.1 Coeficiente de Variação É uma medida adimensional, útil para comparar variabilidades de diferentes amostras, onde as médias são muito desiguais ou as unidades de medidas são diferentes. O coeficiente de variação (CV) é o desvio padrão expresso em porcentagem da média, isto é, magnitude relativa do desvio padrão quando comparado com a média da distribuição das medidas. O coeficiente é dado por: 100 X S CV Exemplo: Tome os resultados das estaturas e dos pesos de um mesmo grupo de indivíduos: Discriminação Média Desvio Padrão ESTATURAS 175 cm 5,0 cm PESOS 68 kg 2,0 kg Qual das medidas (Estatura ou Peso) possui maior homogeneidade? Resposta: Teremos que calcular o CV da Estatura e o CV do Peso. O resultado menor será o de maior homogeneidade (menor dispersão ou variabilidade). CV estatura = (5 / 175) x 100 = 2,85% CV peso = (2 / 68) x 100 = 2,94%. Logo, nesse grupo de indivíduos, as estaturas apresentam menor grau de dispersão que os pesos. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 39 UNIDADE 7 – ASSIMETRIA E CURTOSE 7.1. INTRODUÇÃO A distribuição Normal (Gaussiana), além de descrever uma série de fenômenos físicos e financeiros, possui grande uso na estatística inferencial. É inteiramente descrita por seus parâmetros de média e desvio padrão, ou seja, conhecendo-se estes valores consegue-se determinar qualquer probabilidade em uma distribuição Normal. Diversas teorias e técnicas estatísticas foram desenvolvidas tendo como pressuposto a distribuição normal, desse modo é importante saber se determinado conjunto de dados segue a distribuição normal para poder validar a aplicação de uma técnica. As medidas de assimetria e curtose indicam a Forma da Distribuição dos dados quanto à simetria em relação à média, e quanto ao achatamento em relação a uma Distribuição Normal (que é simétrica). 7.2. MEDIDAS DE ASSIMETRIA Uma DISTRIBUIÇÃO é SIMÉTRICA quando seus valores de MÉDIA, MEDIANA e MODA coincidem. A comparação entre o valor da Média e o valor da Moda, dá portanto uma indicação da inclinação da distribuição, conforme já foi visto no capítulo sobre MEDIDAS DE POSIÇÃO e será enfatizado logo abaixo. Média 16,0 Mediana 16,0 Moda 16,0 0 5 10 15 20 0 4 8 12 16 20 24 28 32 DISTRIBUIÇÃO SIMÉTRICA Média=Mediana=Moda Média 13,1 Mediana 12,4 Moda 11,3 0 5 10 15 20 0 4 8 12 16 20 24 28 32 DISTRIBUIÇÃO ASSIMÉTRICA POSITIVA Média>=Mediana>=Moda UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 40 Média 18,9 Mediana 19,6 Moda 20,70 5 10 15 20 0 4 8 12 16 20 24 28 32 DISTRIBUIÇÃO ASSIMÉTRICA NEGATIVA Média<=Mediana<=Moda Observar que a Média “puxa” a cauda da Distribuição para seu lado, em função de ser a média uma medida não resistente, ou seja, ser altamente sensível aos valores extremos da série de dados. Existem vários tipos de medidas de assimetria, dos quais estudaremos apenas dois tipos. 7.2.1. COEFICIENTE DE ASSIMETRIA DE PEARSON É uma medida de assimetria que não depende dos valores da variável em estudo, e portanto serve para comparações entre distribuições diferentes. O valor em módulo do Coeficiente de Pearson indica a intensidade da assimetria, e o seu sinal indica a direção da assimetria. 0,15 <= |As| <= 1 ASSIMETRIA MODERADA |As| > 1 ASSIMETRIA FORTE As < 0 ASSIMETRIA NEGATIVA As > 0 ASSIMETRIA POSITIVA 7.2.2. COEFICIENTE DE ASSIMETRIA DO EXCEL O indicador de assimetria do Excel (COEFICIENTE DE INCLINAÇÃO) é calculado pela fórmula abaixo, quando registramos a função DISTORÇÃO(): A interpretação dos valores assumidos pelo CI é mostrada a seguir, destacando-se que este coeficiente estabelece uma comparação da distribuição em estudo com a Distribuição Normal. CI = 0 DISTRIBUIÇÃO SIMÉTRICA CI < 0 DISTRIBUIÇÃO ASSIMÉTRICA NEGATIVA CI > 0 DISTRIBUIÇÃO ASSIMÉTRICA POSITIVA xs )Mdx(3 As 3 xs xxi 2n.1n n CI UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 41 Função DISTORÇÃO(núm1;núm2; ...) Retorna a distorção de uma distribuição. O valor enviesado caracteriza o grau de assimetria de uma distribuição em torno de sua média. Um valor enviesado positivo indica uma distribuição com uma ponta assimétrica que se estende em direção a valores mais positivos. Um valor enviesado negativo indica uma distribuição com uma ponta assimétrica que se estende em direção a valores mais negativos núm1, núm2,...são de 1 a 30 argumentos para os quais se deseja calcular a distorção. Pode-se usar também uma única matriz ou referência a uma matriz em vez de argumentos separados por pontos-e-vírgulas. COMENTÁRIOS a) Os argumentos devem ser números, ou nomes, matrizes ou referências que contenham números. b) Se uma matriz ou argumento de referência contiver texto, valores lógicos ou células vazias, estes valores serão ignorados; no entanto, células com valor zero serão incluídas. c) Se houver menos do que três pontos de dados, ou o desvio padrão da amostra for zero, DISTORÇÃO retornará o valor de erro #DIV/0!. 7.3. MEDIDAS DE ACHATAMENTO OU CURTOSE Denominamos CURTOSE o grau de achatamento de uma distribuição em relação à DISTRIBUIÇÃO NORMAL. A distribuição de referência (Distribuição Normal) é denominada MESOCÚRTICA (Meso = Meio, Central, etc.). Quando a distribuição apresenta uma curva de freqüência mais fechada (mais aguda em sua parte superior), ela é denominada LEPTOCÚRTICA (Lepto = Delgado, Alongado, Magro, etc.) Quando a distribuição apresenta uma curva de freqüência mais aberta (mais achatada em sua parte superior), ela é denominada PLATICÚRTICA (Plato = Chato, Plano, Largo, etc.). 7.3.1. COEFICIENTE DE CURTOSE Para uma distribuição de freqüências, o COEFICIENTE DE CURTOSE pode ser calculado conforme a fórmula abaixo: 1090 13 2 PP QQ C Este coeficiente é conhecido como percentílico de curtose. Relativamente a curva normal, temos: C = 0,263 curva mesocúrtica (Distribuição Normal) C < 0,263 curva leptocúrtica UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 42 C > 0,263 curva platicúrtica 7.3.2. COEFICIENTE DE CURTOSE DO EXCEL O COEFICIENTE DE CURTOSE do Excel (CC) é calculado pela fórmula abaixo, quando registramos a função CURT(). Esta função do Excel se aplica a TABELAS PRIMITIVAS ou ROL e não a DISTRIBUIÇÃO DE FREQÜÊNCIAS. A interpretação dos valores assumidos pelo CC é mostrada a seguir, destacando-se que este coeficiente estabelece uma comparação da VARIÁVEL em estudo com a DISTRIBUIÇÃO NORMAL. CC = 0 DISTRIBUIÇÃO MESOCÚRTICA CC < 0 DISTRIBUIÇÃO PLATICÚRTICA CC > 0 DISTRIBUIÇÃO LEPTOCÚRTICA Função CURT(núm1;núm2;...) Retorna a curtose de um conjunto de dados. A curtose caracteriza uma distribuição em cume ou plana se comparada à distribuição normal. A curtose positiva indica uma distribuição relativamente em cume. A curtose negativa indica uma distribuição relativamente plana núm1, núm2,...são de 1 a 30 argumentos para os quais você deseja calcular a curtose. Pode-se também usar uma única matriz ou referência a uma matriz em vez de argumentos separados por ponto-e-vírgulas. COMENTÁRIOS a) Os argumentos devem ser números, ou nomes, matrizes ou referências que contenham números. b) Se uma matriz ou argumento de referência contiver texto, valores lógicos ou células vazias, estes valores serão ignorados; no entanto, células com valor zero serão incluídas. c) Se houver menos do que quatro pontos de dados, ou se o desvio padrão da amostra for igual a zero, CURT retornará o valor de erro #DIV/0!. 3n.2n 1n3 s xxi 3n.2n.1n 1nn CC 24 x UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 43 UNIDADE 8. CORRELAÇÃO LINEAR DE PEARSON Frequentemente procura-se verificar se existe relação entre duas ou mais variáveis. O peso pode estar relacionado com a idade das pessoas; O consumo das famílias pode estar relacionado com sua renda, Bem como, a demanda de um determinado produto e seu preço. A verificação da existência e do grau de relação entre variáveis é o objeto de estudo da correlação. 8.1 Correlação Linear Simples Se um sistema de coordenadas retangulares mostra a localização dos pontos (x, y) e se todos os pontos desse diagrama parecem cair nas proximidades de uma reta, a correlação é denominada linear. Fazendo X a variável independente, se Y tende a aumentar quando X cresce, a correlação é denominada positiva. Se Y tende a diminuir quando X aumenta, a correlação é denominação negativa. 8.1.1. Diagramas de Dispersão Figura 16: Exemplos de Diagramas de Dispersão. UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS DISCIPLINA: ESTATÍSTICA 44 Observação: Para correlações na forma da Figura 16(h) é necessário que seja aplicada uma transformação nos dados, ou seja, é necessário linearizar os dados, já que os mesmos não têm comportamento linear. 8.2. Coeficiente de Correlação Linear de Pearson O instrumento de medida da correlação linear é dado pelo coeficiente de correlação de Pearson. E pode ser calculado a partir da fórmula a seguir: n i n i ii n i ii yyxx yyxx r 1 1 22 1 ou 2 11 2 2 11 2 111 n i i n i i n i i n i i n i i n i i n i ii yynxxn yxyxn r ou yx xy SS S r , onde 1 1 n yyxx S n i ii xy , xS e yS são os desvios padrão de X e Y, respectivamente. Assim yx n i ii SSn yxnyx r )1( 1 . Obs.: O campo de variação do coeficiente r situa-se entre -1 e +1. 8.2.1. Interpretando o valor de r Figura 17: Escala de Correlação entre as Variáveis X e Y. i) Valores de r acima de 0,90 ou abaixo de -0,90, indicam uma forte correlação; ii) Valores de r que vão de 0,50 a 0,90 ou de -0,50 a -0,90, indicam
Compartilhar