Baixe o app para aproveitar ainda mais
Prévia do material em texto
DISCIPLINA: Bioestatística CURSO: Biologia CRÉDITOS: 4 BLOCO DE OFERTA: 7º CARGA HORÁRIA: 60 h PERÍODO LETIVO: 2015.2 DOCENTE RESPONSÁVEL: Ewando José de Sousa email: ewandojose@gmail.com Os dados e a Estatística Definiremos de maneira simples e concisa alguns elementos que usaremos no decorrer do curso. Dados: é um (ou mais) conjunto de valores, numéricos ou não. Estatística: é um conjunto de técnicas desenvolvidas com a finalidade de auxiliar a responder, de forma objetiva e segura, as situações que envolvem uma grande quantidade de informações. Pode ser usada para analisar situações complexas ou não. Permite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudo ou experimentos realizados em qualquer área do conhecimento. Por que a estatística é importante? Os métodos estatísticos são usados hoje em quase todos os campos de investigação científica, já que eles nos capacitam a responder a um vasto número de questões, tais como as listadas abaixo: a) Como os cientistas avaliam a validade de novas teorias? b) Como os pesquisadores médicos testam a eficiência de novas drogas? c) Como os demógrafos preveem o tamanho da população do mundo em qualquer tempo futuro? d) Como pode um economista verificar se a mudança atual no Índice de Preços ao Consumidor é a continuação de uma tendência secular ou simplesmente um desvio aleatório? e) Como é possível para alguém predizer o resultado de uma eleição entrevistando apenas algumas centenas de eleitores? f) Como os pesquisadores na educação testam a eficiência de um novo método de ensino? A grosso modo podemos dividir a Estatística em três áreas: Estatística Descritiva Probabilidade Inferência Estatística Vamos caracterizar estas três áreas: 1-Estatística Descritiva A Estatística Descritiva pode ser definida como um conjunto de técnicas destinadas a descrever e resumir dados, a fim de que possamos tirar conclusões a respeito de características de interesse. Em geral utilizamos a Estatística Descritiva na etapa inicial da análise quando tomamos contato com os dados pela primeira vez. Objetivando tirar conclusões de modo informal e direto, a maneira mais simples seria a observação dos valores colhidos. Entretanto ao depararmos com uma grande massa de dados percebemos, imediatamente, que a tarefa pode não ser simples. Para tentar retirar dos dados informações a respeito do fenômeno sob estudo, é preciso aplicar algumas técnicas que nos permitam simplificar a informação daquele particular conjunto de valores. A finalidade da Estatística Descritiva é tornar as coisas mais fáceis de entender, de relatar e discutir. 2-Probabilidade A Probabilidade pode ser pensada como a teoria matemática utilizada para estudar a incerteza oriunda de fenômenos que envolvem o acaso. Jogos de dados e de cartas, ou o lançamento de uma moeda para o ar enquadram-se na categoria do acaso. A maioria dos jogos esportivos também é influenciada pelo acaso até certo ponto. A decisão de um fabricante de cola de empreender uma grande campanha de propaganda visando a aumentar sua participação no mercado, a decisão de parar de imunizar pessoas com menos de vinte anos contra determinada doença, a decisão de arriscar-se a atravessar uma rua no meio do quarteirão, todas utilizam a probabilidade consciente ou inconscientemente. 3-Inferência Estatística Inferência Estatística é o estudo de técnicas que possibilitam a extrapolação, a um grande conjunto de dados, das informações e conclusões obtidas a partir de subconjuntos de valores, usualmente de dimensões muito menores. Deve-se notar que se tivermos acesso a todos os elementos que desejamos estudar, não é necessário o uso das técnicas de inferência estatística; entretanto, elas são indispensáveis quando existe a impossibilidade de acesso a todo o conjunto de dados, por razões de natureza econômica, ética ou física. Estudos complexos que envolvem o tratamento estatístico dos dados, usualmente incluem as três áreas citadas acima. Estatística Descritiva População Um dos conceitos fundamentais na Estatística, é empregado para designar um conjunto de indivíduos que possuem pelo menos uma característica, ou atributo, em comum. Alguns autores empregam o termo universo para referir-se a uma população. Pode se finita ou infinita. Denotaremos População de N. Exemplos: Finita: Conjunto de alunos de uma determinada escola; Conjunto de pessoas da cidade de Picos-PI. Infinita: Número de vezes que se pode jogar um dado ate sair a face 6; Numero de lançamentos de uma moeda ate sair a face cara. Amostra É um subconjunto não vazio ou parte da população. Denotaremos Amostra de n. Exemplos: Classe de alunos do curso de Biologia da UFPI- Picos; Grupo de alunos que estuda estatística. As medidas estatísticas obtidas com base na população são denominadas parâmetros. As medidas obtidas com base em amostras são denominadas estimativas. Tanto parâmetros quanto estimativas são numéricos a única diferença é o fato de os parâmetros serem obtidos com base na população e as estimativas com base nas amostras. Os parâmetros são em geral desconhecidos porque, na pratica, não é possível observar toda a população. Mas, como já disse alguém, não é preciso beber todo o vinho para saber que gosto ele tem. Então o pesquisador obtém uma amostra para “ter uma ideia” do valor do parâmetro. Amostragem É uma técnica especial para recolher amostras, que garantam, tanto quanto possível, o caráter de representatividade do todo, que possam ser usadas para permitir fazer inferências acerca da população de que originou. Os pesquisadores trabalham com amostras. Primeiro, porque as populações infinitas só podem ser estudadas através de amostras. As populações finitas muito grandes também só podem ser estudadas através de amostras. Finalmente, o estudo cuidadoso de uma amostra tem mais valor cientifico do que o estudo rápido de toda a população. 1-Definição do problema A primeira fase consiste em uma definição ou formulação correta do problema a ser estudado. 2-Planejamento Nele se determina o procedimento necessário para lidar com o problema. No planejamento temos que ter o cronograma das atividades, custos envolvidos, delineamento da amostra, etc. 3-Coleta dos dados Consiste na busca ou compilação dos dados. 4-Apuração dos dados Objetiva a eliminação de erros capazes de provocar futuros enganos. Faz-se uma revisão crítica dos dados. 5-Apresentação dos dados Sua apresentação pode ocorrer por meio de tabelas ou gráficos. 6-Analise e interpretação dos dados Esta fase consiste em tirar conclusões que auxiliem o pesquisador a resolver seu problema, descrevendo o fenômeno através do calculo de medidas estatísticas, especialmente as de posição e as de dispersão. Variável É usada para atribuição dos valores correspondentes aos dados observados. É importante ressaltar que os dados em questão não são necessariamente numéricos, uma vez que podem dizer respeito a atributos qualitativos observados na população. Por esta razão costuma-se classificar as variáveis nas categorias definidas a seguir. Variável Quantitativas Discretas Contínuas Qualitativas Ordinais Nominais Quantitativas (numéricas): São as variáveis cujos valores são expressos em números. Elas podem ser subdivididas em quantitativas discretas e quantitativas contínuas. Quantitativas Discretas: Podem ser vistas como resultantes de contagens, assumindo assim, valores inteiros. Exemplos: Número de irmãos, de alunos numa sala de aula, de defeitos num carro novo, número de porcos por sexo de uma fazenda, etc. Quantitativas Contínuas: Geralmente provêm de uma mensuração e podem assumir qualquer valor em intervalosdos números reais. Exemplos: Altura, peso (peso em Kg de porcos de uma fazenda), comprimento, espessura, velocidade, etc. Qualitativas (não numéricas): São as variáveis cujos possíveis valores que assumem representam atributos e/ou quantidades. Elas podem ser subdivididas em qualitativas ordinais e qualitativas nominais. Qualitativas Ordinais: Possuem uma ordenação natural, indicando intensidades crescentes de realização. Exemplos: Tamanho (pequeno, médio ou grande), Classe social (baixa, média ou alta), etc. Qualitativas Nominais: quando não é possível estabelecer uma ordem natural entre seus valores definindo apenas uma categoria. Exemplos: Turma (A ou B), sexo (F ou M), cor dos olhos, campo de estudo, raça de bois de uma fazenda (Nelore, Gir, Holandes, etc.), etc. Uma distribuição de frequência é um método de grupamento de dados em classes, ou intervalos, de tal forma que se possa determinar o número ou a percentagem de observações em cada classe. O número ou percentagem numa classe chama-se frequência de classe. Uma distribuição de frequência pode ser apresentada sob forma gráfica ou tabular. Dados brutos: São os dados apresentados desordenadamente, da forma como foram coletados. Exemplo: Rol: São dados apresentados em ordem crescente ou decrescente. Exemplo: Peso (kg) de 80 mulheres: Tipos de frequências Frequência simples ou absoluta (f): São os valores que realmente representam o número de dados de cada classe. Frequência relativa (fr): São os valores das razões entre as frequências simples e a frequência total. Frequência acumulada (F): É o total das frequências de todos os valores inferiores ao limite superior do intervalo de uma dada classe (Para baixo). E o total das frequências de todos os valores superiores ao limite inferior de uma dada classe (Para cima). Normalmente utilizamos esse tipo de frequência quando tratamos de variáveis qualitativas ordinais ou quantitativas em geral. Frequência acumulada relativa (Fr): É o total das frequências relativas de todos os valores inferiores ao limite superior do intervalo de uma dada classe (Para baixo). E o total das frequências relativas de todos os valores superiores ao limite inferior do intervalo de uma dada classe (Para cima). Como no caso anterior utilizamos esse tipo de frequência quando tratamos de variáveis qualitativas ordinais ou quantitativas em geral. Para variável quantitativa discreta ou contínua: Amplitude total (At): É a diferença entre o maior e o menor valor observado da variável em estudo. Ou seja, AT = Xmax - Xmin Numero de classes (c): Corresponde à quantidade de classes, nas quais serão agrupados os elementos do rol. a) c = 5, para n ≤ 25 e c ≈ 𝑛, para n > 25. Em que, n é o número de observações. b) Regra de Sturges: c ≈ 1 + 3,3 log10 𝑛, onde n é o numero de observações. Amplitude das classes (h): Distância entre o mínimo e o máximo das classes. Devemos, em geral, construir classes de mesma amplitude, a qual pode ser obtida através da expressão: h = 𝐴𝑇 𝑐 Limite de classes - LI e LS 1) LI ⊢⊣ LS: considera valores entre LI e LS, incluindo LI e LS. 2) LI ⊢ LS: considera valores entre LI e LS, incluindo LI e excluindo LS. 3) LI ⊣ LS: considera valores entre LI e LS, excluindo LI e incluindo LS. 4) LI − LS: não determina claramente se LI e LS devem ser considerados ou não. Ponto Médio de Classe (Xi): O ponto médio de uma classe é dado por: Xi = 𝐿𝐼𝑖:𝐿𝑆𝑖 2 onde LIi e LSi são os limites inferior e superior da classe, respectivamente. Roteiro para a elaboração de uma distribuição de frequências por classes: Construção do Rol; Determinação da Amplitude Total (AT); Determinação do Numero de Classes (c); Determinação da Amplitude das Classes (h); Determinação dos limites das classes (LI e LS); Construção da tabela de frequências ou a dist. de frequência. Representação Tabular Representação Tabular Consiste em dispor os dados em linhas e colunas, distribuídas de modo ordenado, segundo algumas regras práticas. As tabelas devem apresentar: Título: o quê? onde? quando?; Cabeçalho: especifica o conteúdo das colunas; Coluna indicadora: especifica o conteúdo das linhas; Corpo: onde são registrados os dados; Rodapé: notas e identificação da fonte dos dados. Representação Gráfica Representação Gráfica: Tem por finalidade uma melhor visualização do conteúdo das tabelas, expondo, sempre que possível, as mesmas informações nelas contidas. Os tipos mais usados de gráficos são: de linhas e de superfície simples e em faixa; de colunas ou barras simples, remontadas ou superpostas; de setores em círculo (pizza); Box plot; Histogramas. Exemplo Distribuição de Frequência para Variável Quantitativa Contínua: Considere os dados brutos que representam os pesos em kg de coelhos hídricos Norfolk, abatidos aos três meses de idade. Construção do Rol em ordem crescente Exemplo Distribuição de Frequência para Variáveis Quantitativas Discretas: Considere os seguintes dados relativos ao número de acidentes diários num grande estacionamento, durante um período de 50 dias. Podemos construir uma distribuição de frequência, sem perda dos valores originais, utilizando como classes os inteiros de 0 a 9: Gráfico de barras (sem perdas) Observação: De modo geral, prefere-se uma distribuição de frequência sem perda de informações quando: Os dados são constituídos de valores inteiros Há menos de, digamos, 16 dados Há suficientes observações para originar uma distribuição significativa. Por outro lado, uma distribuição de frequência com perda de informações é útil quando: Estão em jogo inteiros e não-inteiros (ou não inteiros somente) Só existem inteiros, porém em número demasiadamente elevado para permitir uma distribuição útil. A perda de informações é de importância secundária. EXERCÍCIO 01) Uma indústria embala peças em caixas com 100 unidades. O controle de qualidade selecionou 48 caixas na linha de produção e anotou em cada caixa o número de peças defeituosas. Obteve os seguintes dados: Agrupe em uma distribuição de frequência: Exercício: Os dados abaixo representam o valor da hora de trabalho de 30 profissionais de Administração na cidade de João Pessoa. Qual a classificação dessa variável? Organize os dados em uma tabela completa. Exemplo Distribuição de Frequência para Variáveis Qualitativas Nominais ou Ordinais: Talvez as distribuições de frequência mais simples sejam as relativas as variáveis nominais ou ordinais. Tal simplicidade decorre do fato de que as classes são facilmente reconhecíveis, tornando mínimos os cálculos. Exemplo 1: Considere os dados nominais referentes à venda de bebidas leves em um dia no Mercado Peg-Pag, dispostos na tabela de frequência abaixo: As categorias são os diversos tipos de bebidas. Pode haver diversos tipos de bebidas com vendas bastante baixas, tais como soda, cerveja e chocolate, que foram englobadas numa única categoria, que chamamos de “Outros”, para tornar os dados mais abrangentes. Podemos optar pela construção de um gráfico de barras horizontais ou verticais usando as frequências simples ou destacar os percentuais de vendas de cada bebida construindo um gráfico de setores com as frequências relativas. Exemplo 2: Consideremos os dados relativos ao aproveitamento num curso de Matemática para o 1º período de Administração 2003/2 da FaculdadeUNIVILA, apresentados abaixo de forma ligeiramente diferente das tabelas de frequências anteriores, apenas para ilustrar outra maneira de preparar uma tabela de frequência. Podemos representar esses dados em um gráfico de barras horizontais ou de setores usando os valores das frequências relativas: a) Gráfico de barras horizontais Classificação dos alunos de Matemática do 1º período de Administração 2003/2 da Faculdade b) Gráfico de setores Denominamos Série Estatística toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em função da época, do tempo ou da espécie. Daí podemos inferir que numa série estatística observamos a existência de três elementos ou fatores: Tempo Espaço Espécie Basicamente existem três tipos de séries estatísticas: Temporais ou Cronológicas, Geográficas e Categóricas. 1- Séries Temporais São constituídas por dados produzidos e monitorados ao longo do tempo. Também são chamadas de séries históricas ou cronológicas. Exemplos: São séries temporais: 2- Séries Geográficas São constituídas por dados provenientes de diferentes regiões geográficas. Também são chamadas de séries espaciais, territoriais ou de localização. Exemplos: São séries geográficas: 3 – Séries Categóricas São constituídas por dados obtidos nas diferentes categorias de uma mesma variável. Também são chamadas de séries específicas. Exemplos: São séries categóricas: 4 – Séries Conjugadas Muitas vezes temos necessidade de apresentar, em uma única tabela, a variação de valores de mais de uma variável, isto é, fazer uma conjugação de duas ou mais séries. Conjugando duas séries em uma única tabela. Obtemos uma tabela de dupla entrada. Em uma tabela desse tipo ficam criadas duas ordens de classificação: uma horizontal e uma vertical. Exemplo: A série conjugada abaixo é uma série geográfico- temporal. Introdução Para resumir a quantidade de informação contida em um conjunto de dados, os estatísticos definem medidas que descreve, através de um só número, características dos dados. Algumas dessas medidas descrevem a tendência central, isto é, a tendência que os dados têm de se agrupar em torno de certos valores. Dentre as medidas de tendência central, destacamos: A média Aritmética A Mediana A Moda A Média Aritmética A média aritmética é a ideia que ocorre à maioria das pessoas quando se fala em “média”. E como ela possui certas propriedades matemáticas convenientes, é a mais importante das três medidas que estudaremos. Seja um conjunto de dados {x1 , x2 , ... , xn }. A média aritmética, ou simplesmente “média”, é dada por: 𝒙 = 𝒙𝒊 𝒏 𝒊=𝟏 𝒏 Exemplo: Calcule a média dos dados: 0, 2, 4, 6, 8. Basta somar todos os valores e dividir o resultado pelo número de parcelas que é 5. Assim temos: 𝒙 = 0 + 2 + 4 + 6 + 8 5 = 4 Quando alguém fala sobre um conjunto de dados, tanto pode estar se referindo a uma amostra como a uma população. Utilizamos o símbolo μ para a média de uma população e o símbolo x para representar a média de uma amostra. A média da população também é obtida dividindo a soma dos dados pelo número de elementos da população. Não calculamos μ porque, em geral, temos apenas uma amostra da população. Mas a média da amostra é uma estimativa da média da população. Às vezes, a média pode ser um número diferente de todos os da série de dados que ela representa, por isso costumamos dizer que a média aritmética não tem existência concreta. Propriedades da média aritmética A média aritmética tem certas propriedades interessantes e úteis, que explicam por que é ela a medida de tendência central mais usada: 1 - A média aritmética de um conjunto de números pode sempre ser calculada. 2 - Para um dado conjunto de números a média aritmética é única. 3 - A média é sensível a (ou afetada por) todos os valores do conjunto. Assim, se um valor se modifica, a média também se modifica. 4 – Somando-se (ou subtraindo-se) uma constante (c) de todos os valores de uma variável, a média do conjunto fica aumentada (ou diminuída) dessa constante. Exemplo: Sabendo-se que a produção leiteira diária da vaca Mimosa, durante uma semana, foi de 10, 14, 13, 15, 16, 18, 12 litros, temos, para a produção média semanal: 𝑥 = 10 + 14 + 13 + 15 + 16 + 18 + 12 7 = 98 7 = 14 Somando-se 2 litros de leite a cada produção diária da Mimosa temos que: y1 = 12, y2 = 16, y3 = 15,y 4 = 17,y5 = 18,y6 = 20 e y7 = 14 Daí: 𝑦 = 12 + 16 + 15 + 17 + 18 + 20 + 14 7 = 112 7 = 16 Lembrando que a média anterior era 𝒙 = 14 , temos que: 𝑦 = 16 = 14 + 2 = 𝑥 + 2. 5 - Multiplicando-se (ou dividindo-se) uma constante (c) de todos os valores de uma variável, a média do conjunto fica multiplicada (ou dividida) dessa constante. Exemplo: Multiplicando-se por 3 cada produção diária da Mimosa temos que: y1 = 30, y2 = 42, y3 = 39,y 4 = 45,y5 = 48,y6 = 54 e y7 = 36 Daí: 𝑦 = 30 + 42 + 39 + 45 + 48 + 54 + 36 7 = 294 7 = 42 Lembrando que a média anterior era 𝒙 = 14 , temos que: 𝑦 = 42 = 14 × 3 = 𝑥 × 3 . A Média Aritmética Ponderada Para dados agrupados em distribuições de frequências calcula-se a média ponderada, sendo que a frequência observada para cada valor é o peso do mesmo. Então, se um conjunto de n valores foi agrupado em k classes, com pontos médios X1 , X2 , ... , Xk , e frequências simples f1 , f2 , ... , fk , respectivamente, então a média aritmética é dada por: 𝑥 = 𝒙𝒊𝒇𝒊 𝒏 𝒊=𝟏 𝒏 A Mediana Colocados em ordem crescente, mediana é o valor que divide a amostra, ou população, em duas partes iguais. Assim: Cálculo da mediana: Para dados brutos e distribuições de frequência sem intervalo de classe. Se n for ímpar, a mediana será o elemento central (de ordem 𝑛:1 2 ). Caso n seja par, a mediana será a média entre os elementos centrais (de ordem 𝑛 2 e 𝑛 2 +1). 0% 50% 100% Md Exemplo 1: Seja o conjunto {2 , 2 , 3 , 5 , 5 , 6 , 7 , 7 , 9 , 9 , 10}. Neste caso a mediana é Md = 6. Exemplo 2: Seja o conjunto {0 , 1 , 1 , 2 , 3 , 4 , 5 , 5 , 6 , 6 , 7 , 8}. Aqui a mediana é dada pela média dos dois valores centrais, isto é, Md = 4:5 2 = 4,5 Exemplo 3: Dada a distribuição: xi fi F↓ 1 1 1 2 3 4 3 5 9 4 2 11 T 11 n = 11, n é ímpar , logo Md será o elemento de ordem 𝑛:1 2 , ou seja, 11:1 2 = 6º. Será, portanto o 6º elemento. Para identificá-lo, observa-se a Frequência Acumulada para baixo (F↓). Portanto: Md = 3 Mediana para dados agrupados em distribuições de frequências com intervalos de classe: Para dados agrupados em distribuições de frequências pode- se utilizar para o cálculo da mediana a expressão: 𝑴𝒅 = 𝑳𝑰𝑴𝒅 + 𝒏 𝟐 ;𝑭↓𝑨𝒏𝒕 𝒇𝑴𝒅 ∗ h Onde: Classe Mediana é a classe correspondente à frequência acumulada para baixo imediatamente superior a 𝒏 𝟐 ; LI é o limite inferior da classe mediana; 𝑭 ↓𝑨𝒏𝒕 é a frequência acumulada para baixo da classe anterior à classe mediana; 𝒇𝑴𝒅 é a frequência simples da classe mediana; h é a amplitude da classe mediana. A Moda A moda, ou valor modal, de um conjunto de dados é o valor com maior frequência individual. É importante ressaltar que o valor modal pode não existir, além disto, caso exista, pode não ser único. Neste último caso, diz-se que o conjunto é bimodal, trimodal, etc. Exemplo: Determine a moda dos dados: 0, 0, 2, 5, 3, 7, 4, 7, 8, 7, 9, 6. A moda é 7, porque é o valor que ocorre o maiornúmero de vezes. Moda para dados agrupados em distribuições de frequências com intervalos de classe: A classe que apresenta a maior frequência é denominada classe modal. Pela definição, podemos afirmar que a moda, neste caso, é o valor dominante que está compreendido entre os limites da classe modal. Par determinação da moda, Czuber criou a seguinte expressão denominada fórmula de Czuber e, na qual: Mo = LI + h 𝑫𝟏 𝑫𝟏: 𝑫𝟐 → 𝑫𝟏= 𝒇𝑴𝒐 ; 𝒇𝑨𝒏𝒕 e 𝑫𝟐= 𝒇𝑴𝒐 ; 𝒇𝑷𝒐𝒔𝒕 Onde: 𝒇𝑴𝒐 é a frequência simples da classe modal; 𝒇𝑨𝒏𝒕 é a frequência simples da classe anterior à classe modal; 𝒇𝑷𝒐𝒔𝒕 é a frequência simples da classe posterior à classe modal. Exercício: De acordo com os dados abaixo, calcule a média, mediana e moda: Comprimento da sépala, observados em flores de três espécies Comprimento (mm) f Relação entre Média, Mediana e Moda A relação entre os valores encontrados para a média, para a mediana e para a moda indica o tipo de assimetria da distribuição de frequências. Aqui entende-se por assimetria o grau de desvio dos dados em relação ao centro da distribuição. Assimetria positiva (Mo < Md < x) Assimetria negativa (Mo > Md > 𝑥 ) Distribuição simétrica (normal) (Mo = Md = 𝑥 ) Quartis, Decis e Percentis Quartis Os quartis dividem um conjunto de dados em quatro partes iguais. Assim: 𝑄1 = 1º quartil, deixa 25% dos elementos. 𝑄2 = 2º quartil coincide com a mediana, deixa 50% dos elementos. 𝑄3 = 3º quartil, deixa 75% dos elementos. 𝑄1 𝑄2 𝑄3 0% 25% 50% 75% 100% Para dados agrupados em distribuições de frequências pode-se utilizar a fórmula dada por: 1 – Encontra-se a classe cuja frequência acumulada para baixo é igual ou imediatamente superior a 𝑞𝑛 4 . 2 - Q = 𝑳𝑰𝒒 + 𝒒𝒏 𝟒 ; 𝑭↓𝑨𝒏𝒕 𝒇𝒊 ∗ 𝒉 onde: 𝑳𝑰𝒑 = limite inferior da classe quartil; 𝑭 ↓𝑨𝒏𝒕 = frequência acumulada para baixo da classe anterior à classe quartil; fi = frequência simples da classe quartil; h = amplitude da classe quartil. Decis São os valores que dividem a série em 10 partes iguais. 𝐷1 𝐷2 𝐷3 𝐷4 𝐷5 𝐷6 𝐷7 𝐷8 𝐷9 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Para dados agrupados em distribuições de frequências pode-se utilizar a fórmula dada por: 1 –Encontra-se a classe cuja frequência acumulada para baixo é igual ou imediatamente superior a 𝑑𝑛 10 ; 2 - D = 𝑳𝑰𝒅 + 𝒅𝒏 𝟏𝟎 ; 𝑭↓𝑨𝒏𝒕 𝒇𝒊 ∗ 𝒉 Percentis São as medidas que dividem a amostra em 100 partes iguais. Assim: 𝑃1 𝑃2 𝑃3 . . . 𝑃50 . . . 𝑃97 𝑃98 𝑃99 0% 1% 2% 3% . . . 50% . . . 97% 98% 99% 100% Para dados agrupados em distribuições de frequências pode-se utilizar a fórmula dada por: 1 –Encontra-se a classe cuja frequência acumulada para baixo é igual ou imediatamente superior a 𝑝𝑛 100 ; 2 - P = 𝐿𝐼𝑝 + 𝑝𝑛 100 ;𝑭↓𝑨𝒏𝒕 𝑓𝑖 ∗ ℎ Exemplo: Calcular o 3º quartil, o 3º decil e o 90º percentil para os dados da distribuição de frequências dos dados mostrados no Quadro anterior: Exercício: São dados os valores (em reais) de alguns produtos de um supermercado. a) Calcule Média, Moda e Mediana. b) Calcule o 55º percentil, o 8º decil e o 3º quartil: Valor (R$) Nº de produtos 5 ⊢ 10 1 10 ⊢ 15 2 15 ⊢ 20 5 20 ⊢ 25 20 25 ⊢ 30 15 30 ⊢ 35 5 35 ⊢ 40 2 Total 50 MEDIDAS DE DISPERSÃO A principal utilidade das medidas de tendência central, quando calculadas para determinado conjunto de dados, é a determinação de valores característicos ou típicos deste conjunto. Entretanto, a informação fornecida por tais medidas é incompleta, se não for acompanhada de alguma informação sobre a variabilidade dos dados. Esta informação é obtida através do cálculo de medidas de dispersão, ou variabilidade. Desvio Médio: O Desvio Médio Simples é uma medida da dispersão dos dados em relação à média de uma sequência, o “afastamento” em relação a essa média. Esta medida representa a média das distâncias entre cada elemento da amostra e seu valor médio. O desvio médio para dados brutos pode ser obtido pela seguinte fórmula: DM = |𝒙𝒊 ;𝒙 |𝒏𝒊=𝟏 𝒏 O desvio médio para a distribuição de frequências pode ser obtido pela seguinte fórmula: DM = |𝑿𝒊 ;𝒙 |𝒏𝒊=𝟏 ∗𝒇𝒊 𝒏 Variância A variância tem o objetivo de analisar o grau de variabilidade de determinadas situações, através dela podemos perceber desempenhos iguais, muito próximos ou muito distantes. A média aritmética pode ser usada para avaliar situações de forma geral, já a variância determina de forma mais específica as possíveis variações, no intuito de não comprometer os resultados da análise. Para Dados brutos: Quando o conjunto de dados {𝑥1 , 𝑥2 , ... , 𝑥𝑛 } representa uma amostra, calcula-se o estimador para a variância amostral, dado por: Para dados populacionais, o estimador é dado por: (em que μ é a média). σ 𝟐 = (𝑿𝒊;𝝁)𝟐𝒏𝒊=𝟏 𝑵 Para Distribuição de Frequência: Para uma distribuição de frequências com k classes, com frequências simples 𝑓1 , ... , 𝑓𝑘 , e pontos médios 𝑋1 , ... , 𝑋𝑘 , respectivamente, a variância amostral é dada por: 𝒔𝟐 = (𝑿𝒊;𝒙 )𝟐𝒇𝒊𝒏𝒊=𝟏 𝒏;𝟏 Para dados populacionais, o estimador é dado por: (em que μ é a média). σ 𝟐 = (𝑿𝒊;𝝁)𝟐𝒇𝒊𝒏𝒊=𝟏 𝑵 Desvio Padrão É dado pela raiz quadrada da variância. Deste modo, para o cálculo do desvio padrão, deve-se levar em consideração a natureza dos dados. É a medida de dispersão mais utilizada para a descrição de dados, juntamente com a média aritmética. Se o conjunto representa uma amostra, o estimador corrigido é dado por: s = 𝒔𝟐 Se o conjunto representa uma população, o estimador corrigido é dado por: σ = σ𝟐 Coeficiente de Variação (CV) Por vezes é conveniente exprimir a variabilidade em termos relativos, isto porque, por exemplo, um desvio padrão de 10 pode ser insignificante se a observação típica é 10.000, mas altamente significativo para uma observação típica de 100. Toma-se então uma medida relativa da variabilidade, comparando o desvio padrão com a média. Esta medida é o Coeficiente de Variação. Já vimos que o desvio padrão tem a mesma unidade de medida que os dados, de modo que o coeficiente de variação é adimensional. A grande utilidade do coeficiente de variação é permitir a comparação da variabilidade de diferentes conjuntos de dados. Se: CV ≤ 15% → Baixa dispersão – Homogênea, estável, regular. 15% < CV < 30% → Média dispersão. CV ˃ 30% → Alta dispersão – Heterogênea. Exemplo: Calcular o Desvio Médio, a Variância amostral, o Desvio Padrão e o Coeficiente de Variação para os dados da distribuição de frequências do Quadro abaixo:
Compartilhar