Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 PAGE 33 Prof.ª Dr.ª Vera Lucia Bodini ESTATÍSTICA I PARTE 1 – ESTATÍSTICA DESCRITIVA 1. CONSIDERAÇÕES GERAIS SOBRE ESTATÍSTICA 1.1 Introdução A palavra estatística origina-se da palavra “Status” (Estado em latim), por ser utilizada pelo mesmo no levantamento de dados, com a finalidade de orientar decisões governamentais. Podemos considerar a estatística como “a ciência que se preocupa com a organização, descrição, análise e interpretação de dados experimentais” ou “matemática aplicada a dados em observação”. Ou através de um conceito mais atual, podemos considera-se a estatística como “um conjunto de métodos e processos quantitativos que serve para estudar e medir os fenômenos coletivos” ou ainda como “um conjunto de métodos destinados à coleta, organização, resumo, apresentação e análise de dados e observações, bem como a tomada de decisões baseadas em tais análises”. Seu maior desenvolvimento deu-se, a partir do século XVII, com os estudos de Bernoulli, Pascal, Laplace, Gauss, Pearson, Fisher, Poisson e outros que estabeleceram a forma mais atual de seu uso. Contudo, é uma ciência nova, que ainda não alcançou seu estado definitivo. Continua a progredir conforme avança seu uso no estudo da população e conforme os avanços da informática. Cabe observar que alguns autores não a consideram como ciência, mas sim como método quando utilizada como instrumento de outra ciência. Popularmente o uso da estatística, está ligado à representação de dados experimentais através de tabelas e gráficos. Exemplos: movimento nas bolsas de valores, estatísticas de saúde, estatísticas de acidentes, estatísticas populacionais, levantamento de produção ou de vendas, etc. Entretanto está noção é apenas parcial, pois envolve somente a parte de organização e descrição de dados observados. Além deste enfoque existe todo um campo de atuação dentro da ciência estatística, que se refere ao levantamento, análise e interpretação desses dados e o trabalho com probabilidade. A ciência estatística é aplicável a qualquer ramo do conhecimento onde se manipulem dados experimentais. Assim, a física, a química, a engenharia, a medicina, a psicologia, a biologia, as ciências sociais, as ciências administrativas, a agronomia, e todas as áreas tendem cada vez mais a servir-se dos métodos estatísticos como ferramenta de trabalho; justificando a sua grande importância. 1.2 Conceitos básicos Estatística: estuda fenômenos coletivos, sociais, ultrapassando o aspecto individual. No singular, significa o conjunto de procedimentos usados na coleta, análise e interpretação dos dados numéricos. Estatísticas ou estimativas: no plural, refere-se aos resultados das relações calculadas com dados de uma amostra. Estimadores: referem-se a uma característica numérica estabelecida para uma amostra e são simbolizados por caracteres latinos. Parâmetros: refere-se a uma característica numérica estabelecida para toda a população e são simbolizados por caracteres gregos. População ou universo (N): é um conjunto de todas as unidades em observação (pessoas, objetos, experimentos ou eventos) sobre o fenômeno em estudo, sendo que a partir destas unidades se deseja tomar uma decisão. Essas observações apresentam pelo menos uma característica comum e observável, delimitando inequivocamente quais os elementos que pertencem à população e quais os que não pertencem. Deste modo uma população pode ser finita ou infinita. População finita: é aquela em que o número de unidades em observação pode ser contado e assume um número limitado. Exemplos: eleitores de um município; clientes atendidos em um supermercado no dia; carteira de clientes de um banco; e quantidade de experimentos realizados. População infinita: é aquela em que o número de observações não possui uma quantidade limitada. Exemplos: clientes de um supermercado; e unidades produzidas em uma linha de produção (incluindo as produzidas até o momento e as que serão produzidas no futuro) Amostra (n): é um subconjunto representativo da população (não-vazio e finito). Onde todos os elementos serão examinados para a realização do estudo desejado. Os resultados obtidos da amostra devem ser muito próximos dos obtidos do estudo da população. É intuitivo que quanto maior a amostra, mais precisas e mais confiáveis deverão ser as induções realizadas sobre a população. Desta forma, poderíamos dizer que o ideal seria o exame completo da população (censo); porém esta conclusão é válida em teoria, mas na prática isto nem sempre se configura, até porque o levantamento de toda população demanda custo, tempo, acesso a população e um grande número de pessoas envolvidas, o que nem sempre é possível. Algumas vezes não se conhece toda a população, e nem sempre o resultado da população traz melhores resultados do que os colhidos através de um bom processo de amostragem. Amostragem: é o levantamento envolvendo os elementos de uma amostra de uma população e tem por finalidade fazer generalizações sobre esta população. Censo ou recenseamento: é o levantamento envolvendo todos os elementos da população. Propriedades principais do censo: admite erro processual zero e tem confiabilidade de 100%; é caro; de modo geral lento; quase sempre desatualizado; e nem sempre é viável. Inferência ou estimação: é produzir afirmações sobre uma dada característica dos elementos da população a partir de dados colhidos de uma amostra representativa da população. Propriedades principais da estimação: admite erro processual positivo e tem confiabilidade menor que 100%; é barata; rápida; atualizada; e é sempre viável. Variáveis: são as características investigativas, e se dividem em: Qualitativas: apresentam uma qualidade ou atributo: Nominais: para as quais não existe ordenação. Exemplos: sexo; religião; estado de um produto (bom ou defeituoso); cor de cabelos; e outros. Ordinais: para as quais existe uma certa ordenação. Exemplos: grau de instrução; graduações como: bom, razoável e ruim; e outros. Quantitativas: apresentam resultados de uma contagem ou de uma mensuração: Discretas ou descontínuas: cujos possíveis valores formam um conjunto finito ou enumerável de números e resultam, frequentemente, de uma contagem assumindo valores inteiros. Exemplos: número de filhos de uma família; número de defeitos em uma unidade; e número de empregados da empresa. Contínuas: cujos possíveis valores formam um intervalo de números reais e resultam, normalmente, de uma mensuração. Exemplos: altura; peso; renda; temperatura; pressão; tempo de duração de um dispositivo elétrico. Dados estatísticos: são as informações resultantes de censo ou de amostragem, representando, muitas vezes, uma quantidade muito grande de dados que com o uso da disciplina de estatística encontram-se formas racionais para a obtenção de informações a respeito de um fenômeno coletivo, além de obter conclusões válidas para o fenômeno e também permitir tomada de decisões, através das observações. 1.3 Arredondamento de números Dependendo da variável que estamos trabalhando devemos utilizar o número de casas decimais adequadas a situação, o que pode nos levar a arredondar algumas das variáveis. Como por exemplo: a) peso de um produto X em geral, não há necessidade de mais de duas casas decimais, b) medida de uma peça A são suficientes duas casas decimais. 1.3.1 Normas de arredondamento de números · Quando o primeiro algarismo a ser abandonado for 0, 1, 2, 3 ou 4, fica inalterado o último algarismo. · Quando o primeiro algarismo a ser abandonado for 6, 7, 8 ou 9, deve-se acrescer uma unidade no algarismo anterior. · Quando o primeiro algarismo a ser abandonado for 5, vamos considerar indiferente a inalternância ou o acréscimo de uma unidade no último algarismo (opte pela norma a usar). · Quando houver parcelas e total e ocorrer divergências no arredondamento, deve ser corrigida a parcela ou parcelas onde o erro relativo for menor. No cálculo de porcentagem isto é muito comum de ocorrer, neste caso faz-se o arredondamento para mais ou para menos, conforme anecessidade, na maior ou nas maiores parcelas, pois é sobre elas que a proporção de erro é menor. · Deve-se sempre evitar arredondamentos sucessivos. Exemplos: arredondar para uma casa decimal 15,4457 = 15,4 104,679890 = 104,7 234,876 = 234,9 34,25 = 34,2 ou 34,3 34,28 = 34,3 34,20 = 34,2 2. ESTATÍSTICA DESCRITIVA – APRESENTAÇÃO DOS DADOS Como já vimos a estatística oferece técnicas para: · Coleta de dados; · Organização sumária dos dados; · Apresentação dos dados; · Descrição dos dados; e · Análise de dados e observações para que se possam tomar decisões. A Estatística Descritiva desenvolve o trabalho até a descrição dos dados; a análise destes fica para ser desenvolvida pela Estatística Inferencial. 2.1 Coleta de dados Consiste na busca dos dados componentes do fenômeno a ser estudado. É uma etapa importante, pois o resultado de todo o trabalho depende desta fase. Ou seja, todas as outras etapas dependem da definição do problema, do planejamento, da definição do tipo de dados que serão coletados, de como será feita a coleta, e ainda é necessário que tenhamos conhecimentos teóricos sobre população, censo, amostra e amostragem. Procedendo depois disto a coleta propriamente dita dos dados. Definição do problema e planejamento: consiste na definição do que exatamente queremos pesquisar. Quais as informações que existem sobre o assunto? O que precisamos levantar de informações? Que tipo de estudo irá desenvolver? Quais as informações necessárias ao estudo? Como precisamos que sejam medidas estas variáveis? Que tipo de instrumento de coleta de dados irá ser utilizado (formulário, questionário, planilha, entrevista ou outro)? Vamos fazer censo ou amostragem? Se decidirmos por amostragem como vai ser delineada/coletada esta amostra? Quais os prazos de dispomos? Tipos de dados estatísticos: Dados primários: são os dados publicados por quem os coletou. Dados secundários: são dados publicados por quem não os coletou, e estão sendo utilizados com referência da fonte utilizada. Amostragem: quando optamos por fazer a pesquisa não utilizando toda a população devemos recorrer a teoria da amostragem, que tem como objetivo definir as regras para definição do tamanho da amostra (nº de elementos) e da forma de seleção desta amostra; garantindo a representatividade da amostra. A amostragem pode ser dividida em dois grupos: Amostragem probabilística: é a amostragem onde a probabilidade de cada elemento da população pertencer à amostra é conhecida e diferente de zero. Isto implica em um plano de amostragem com regras bem definidas para a escolha/sorteio dos elementos que farão parte da amostra. Conhecendo a probabilidade de cada elemento da população pertencer a amostra, é possível calcular o tamanho da amostra e o erro amostral, de acordo com um determinado nível de confiança. Esses cálculos são baseados na Teoria da Probabilidade. Principais métodos de amostragem probabilística: 1. Amostragem aleatória simples (AAS) 2. Amostragem sistemática 3. Amostragem estratificada 4. Amostragem por conglomerado 5. Amostragem por múltiplos estágios Amostragem não probabilística: é a amostragem onde não é possível de determinar a probabilidade de cada elemento da população pertencer a amostra por isso não é possível calcular, de maneira objetiva e formal, o tamanho da amostra e o erro amostral. Sempre que possível devemos optar pela amostragem probabilística. No entanto, em alguns casos, a amostragem não probabilística pode produzir resultados muito semelhantes aos da amostragem probabilística. Principais métodos de amostragem não probabilística 1. Amostragem a esmo 2. Amostragem em populações formadas por material contínuo 3. Amostragem por cotas 2.2 Organização sumária dos dados A organização sumária de dados deve ser antecedida de uma análise crítica dos dados levantados, suprimindo valores estranhos ao levantamento ou mesmo checando se estes valores condizem com a realidade. Uma das maneiras mais prática e racional de organização de dados é através das séries estatísticas. Estas são classificadas segundo critérios de agrupamento das variáveis: 1. SÉRIE HISTÓRICA, TEMPORAL, CRONOLÓGICA OU EVOLUTIVA: é a série em que os dados são agrupados segundo a época de ocorrência. Onde se mantêm constantes o fenômeno (fator especificativo) e o local (fator geográfico); e o elemento variável é o tempo (fator cronológico) TABELA 1 – Número de produtos fabricados na empresa X, em Santa Cruz do Sul 2013-2019 ANO Nº de produtos 2013 480 2014 530 2015 2016 430 500 2017 580 2018 470 2019 80 FONTE: Setor de produção da empresa. Nota: dados preliminares do ano de 2019 2. SÉRIE GEOGRÁFICA, TERRITORIAL, ESPACIAL OU DE LOCALIZAÇÃO: é a série em que os dados são agrupados segundo o local de ocorrência. Onde se mantêm constantes o fenômeno (fator especificativo) e o tempo (fator cronológico); e o elemento variável é o local (fator geográfico). TABELA 2 – Produção de batatas (em kg) por região - 2018 – Rio Grande do Sul COREDE 2017 Fronteira Oeste 3.350.762 Sul 1.747.894 Campanha 1.507.295 Vale do Jaguari 801.031 Missões 752.383 Central 672.656 Vale do Rio Pardo 626.862 Rio Grande do Sul 13.974.827 Brasil 205.886.244 Fonte: Dados ficticios 3. SÉRIE ESPECÍFICA OU CATEGÓRICA: é a série em que os dados são agrupados segundo o fenômeno ou modalidade de ocorrência. Onde se mantêm constantes o local (fator geográfico) e o tempo (fator cronológico); e o elemento variável é o fenômeno (fator especificativo) TABELA 3 - Perfil agrícola do Rio Grande do Sul – 1995/1996 características Quantidades População rural (em %) 21,13 População economicamente ativa (em %) 52,01 Quantidade de erva-mate produzida (em ton.) 195.979 Renda per capita (em milhares de US$) 5,84 Divisão do PIB para o setor da agricultura e pecuária (em %) 9,72 Fonte: Censo Agropecuário (1995/1996), Atlas do Mercado Brasileiro (1998) e Mazuchowki & Rucker (1997). 4. SÉRIE DE DUPLA ENTRADA OU DE CONTINGÊNCIA: é a série em que os dados são agrupados observando a o comportamento de duas das variáveis que estamos trabalhando (fenômeno, local ou tempo). Em geral esta série é específico-temporal. TABELA 4 - Evolução anual da produção e área plantada de soja no RS e Brasil - 1990 a 2006 Fonte: IBGE/Produção Agrícola Municipal 5. DISTRIBUIÇÃO DE FREQUENCIA: é a série em que os dados são agrupados segundo a frequência em que eles ocorrem; os elementos o local, tempo e fenômeno são constantes, estando agrupados segundo sua intensidade ou variação quantitativa. Antes de trabalharmos com a distribuição de frequência propriamente dita, precisamos de alguns conceitos tais como: Frequência: é o número de observações ou de repetições de certo valor ou de uma modalidade em um levantamento de dados. Distribuições de frequência: é uma forma de agrupamento ou de organização de dados em que as variáveis se apresentam com a respectiva frequência. Dados brutos: são os dados anotados conforme foram coletados, sem estarem numericamente organizados. Rol: é a organização dos dados brutos em ordem crescente ou decrescente. Amplitude total (H ou R): é a diferença entre o maior e o menor valor observado H = Xmax - Xmin Classe: é cada um dos grupos em que se divide a amplitude total dos dados. Todas as classes devem ter a mesma amplitude de classe. O número de classes (k) a ser usado na distribuição de frequências pode ser calculado pela Regra de Sturges: k = 1 + 3,3 log n, ou ainda extraindo a raiz quadrada de n ajustando a no mínimo 5 e no máximo 15 classes. Leituras e Símbolos que representam os intervalos de classes: 2 ׀── 8, compreende valores iguais ou maiores que 2 e valores menores que 8 (resolução 886/66 do IBGE). 2 ───׀ 8, compreende valores maiores que 2 e valores menores ou iguais a 8. 2 ׀──׀ 8, compreende valores iguais ou maiores que 2 e valores menores ou iguais a 8. 2 ─── 10,compreende valores maiores que 2 e valores menores que 8 (ou seja não possui limites reais). 2 ou mais, possui um dos limites não definidos. Limites de classe ou da distribuição: na classe os limites são os valores extremos de cada classe, temos então L (limite superior da classe) e l (limite inferior da classe). Os limites da distribuição é o limite inferior da primeira classe e o limite superior da última classe. Amplitude de classe (h ou r): é determinada pela diferença entre o limite superior e o limite inferior da classe (h = L – l). Tendo o cuidado que todas as classes possuem a mesma amplitude, determina-se a amplitude de classe pela fórmula h = H : k Amplitude da distribuição: é a diferença entre os limites extremos da distribuição, ou seja, é a diferença entre o e o limite superior da última classe e o limite inferior da primeira classe. Ponto médio (Pm): é o valor que divide a amplitude de classe em duas partes iguais. Pode ser calculado pela média aritmética do limite inferior e do limite superior da classe. O ponto médio é importante nos cálculos futuros, pois não utilizaremos um intervalo de valores e sim um único valor que representará cada classe. Frequência simples absoluta (f): é o número de repetições de um valor individual ou de uma classe de valores da variável. Frequência simples relativa (fr ou fr%): é a proporção de observações de um valor individual ou de um classe de valores em relação ao número total de observações (pode ser expressa em porcentagem, bastando multiplicar por 100, observando as regras de arredondamento). Permite comparar dos grupos de variáveis com quantidade diferentes de dados. Frequência acumulada (F, Fr ou Fr%): é igual a soma das frequências absolutas ou relativas dos valores individuais ou das classes anteriores com as frequências absolutas ou relativas da classe ou do valor dessa classe. Distribuição de frequência para dados não agrupados (distribuição de frequência por pontos): é a distribuição de frequência onde os valeres da variável estudada aparece individualmente. Em geral utilizada para organizar variáveis quantitativas discretas. Exemplo: Número de filhos dependentes dos funcionários da Empresa A, levantamento realizado em dezembro de 2017 (em rol). 0 – 0 – 0 – 0 – 0 – 0 - 1 – 1 – 1 – 1 – 1 – 1 – 1 – 1 – 1 - 2 2 – 2 – 2 – 2 – 2 – 2 - 2 – 2 – 2 – 2 – 3 – 3 – 3 – 3 – 3 – 3 não agrupados 3 – 3 – 3 – 3 – 3 – 3 - 3 – 3 – 3 – 4 – 4 – 4 – 4 – 4 – 4 – 4 4 – 4 – 4 – 4 – 4 – 4 - 4 – 5 – 5 – 5 – 5 – 5 – 5 – 5 – 5 – 5 Dados agrupados por pontos N º de filhos f fr fr% F Fr Fr% 0 6 0,0937 9,37 6 0,0937 9,37 1 9 0,1406 14,06 15 0,2343 23,43 2 11 0,1719 17,19 26 0,4062 40,62 3 15 0,2345 23,45 41 0,6407 64,07 4 14 0,2187 21,87 55 0,8594 85,94 5 9 0,1406 14,06 64 1 100 Total ou ∑ 64 1 100 --- --- --- Fonte: dados hipotéticos Distribuição de frequência para dados agrupados (distribuição de frequência por classes): é a distribuição de frequência onde os valeres da variável estudada aparece agrupados por faixas de valores, onde se considera a frequência do agrupamento. Em geral utilizada para organizar variáveis quantitativas contínuas. Roteiro para elaboração de uma distribuição de frequência com classes (ou intervalos): · Obter os dados brutos que podem ser transformados em rol; · Calcular a amplitude total (H ou R) dos conjuntos de variáveis; · Calcular o número de classes (k) considerando no mínimo 5 e no máximo 15; · Calcular a amplitude de classe (h ou r) com o arredondamento conveniente, sabendo que k vezes h deve ser igual ou maior que H; · Determinar os limites das classes, escolhendo preferencialmente números que sejam usuais na medição que esta sendo usada; · Formar as classes; · Determinar a simbologia de classe a ser utilizada; · Apresentar a frequência relativa a cada classe, mediante contagem; · Construir a distribuição de frequência. Exemplo: dados brutos já transformados em rol relativos a idade (em anos) dos funcionários da Empresa A, no mês de maio de 2004 . Dados não agrupados 18 – 18 – 20 – 20 – 20 – 21 - 22 – 22 – 22 – 22 – 22 – 23 – 23 – 23 – 25 - 25 28 – 28 – 30 – 30 – 30 – 31 - 32 – 32 – 32 – 32 – 33 – 34 – 34 – 34 – 35 – 35 38 – 38 – 40 – 40 – 40 – 41 - 42 – 42 – 42 – 42 – 42 – 43 – 43 – 44 – 45 – 45 46 – 46 – 47 – 47 – 47 – 49 - 49 – 52 – 55 – 55 – 55 – 57 – 57 – 59 – 60 – 63 Cálculo da amplitude total ( H ou R) dos conjunto de variáveis s s ) ( 3 Md x Mo x As - = - = H = Xmax - Xmin H = 63 – 18 = 45 Cálculo do número de classes: Regra de Sturges: k = 1 + 3,3 log n k = 1 + 3,3 log 64 k = 6, 96 ou seja k = 7 s ) ( 3 Md x As - = Cálculo da amplitude de classe: h = H : k h = 45 : 7 h = 6,5 Dados agrupados por classes Classes f Pm fr fr% F Fr Fr% 18 ׀─── 24,5 14 21,25 0,2188 21,88 14 0,2188 21,88 24,5 ׀─── 31 7 27,75 0,1094 10,94 21 0,3282 32,82 31 ׀─── 37,5 11 34,25 0,1719 17,19 32 0,5001 50,01 37,5 ׀─── 44 13 40,75 0,2031 20,31 45 0,7032 70,32 44 ׀─── 50,5 10 47,25 0,1562 15,62 55 0,8594 85,94 50,5 ׀─── 57 4 53,75 0,0625 6,25 59 0,9219 92,19 57 ׀─── 63,5 5 60,25 0,0781 7,81 64 1 100 ∑ 64 ------- 1 100 ----- ----- ----- Fonte: dados hipotéticos 2.3 Apresentação dos dados A apresentação de dados é realizada basicamente de duas formas: pela representação tabular e pela representação gráfica. A representação tabular (já vista anteriormente) tem a finalidade de sintetizar observações, facilitando a leitura e a compreensão dos dados coletados. A representação gráfica também sintetiza observações, porém produz uma impressão mais rápida e viva do fenômeno em estudo, apesar de algumas vezes a representação gráfica perder a precisão da representação tabular. É interessante que se observem alguns critérios na construção dos diagramas: · Colocação de título com identificação do fenômeno, local e tempo. · Identificação da procedência dos dados (fonte) · Quando construído sobre os eixos das coordenadas cartesianas, a altura do diagrama deve ser de aproximadamente 60 a 70 % da largura (mede-se no eixo das ordenadas e no eixo das abcissas) · As escalas devem ser proporcionais às quantidades que se esta representando · Os eixos devem ser do tamanho necessário para que sejam representadas as amplitudes das variáveis em estudo. 2.3.1 Principais gráficos (ou diagramas): Diagrama de pontos (ou diagrama de dispersão): é construído, como a maioria dos diagramas, sobre o eixo das coordenadas cartesianas. É um diagrama bastante usado no estudo de regressão e correlação entre variáveis. Diagrama de linhas (ou de curvas): utilizado para representar séries temporais, é bastante útil quando queremos observar o desenvolvimento de um fenômeno no decorrer do tempo. Exemplo: vendas mensais da empresa nos últimos dois anos. Diagrama de colunas e de barras: usado para representar (em geral) séries estatísticas geográficas ou específicas. Difere do histograma. Diagramas de superfície: outra forma de representar o gráfico de linhas (ou de curvas), sua forma tende a realçar os dados representados. Diagramas de área: são formados pela representação proporcional das variáveis sobre figuras geométricas. Em geral utiliza-se como base o quadrado, retângulo ou círculo; e nestes ressalta-se o percentual que cada variável influencia no fenômeno estudado. Também são mais indicados para séries geográficas ou séries específicas. Não recomendados para quando temos grandes quantidades de resultados. Diagrama de vetores (polar ou circular): é uma opção ao diagrama de setores quando temos uma quantidade maior de dados. É interessante na representação de séries temporais. Diagramas de distribuição de frequência (histograma, polígono de frequência e polígono de frequência acumulada): histograma: representa a frequência de cada intervalo de classe atravésde colunas justapostas. Polígono de frequência: é utilizado para comparação entre resultados de duas ou mais distribuições de frequência, é construído utilizando a frequência e o ponto médio dos intervalos de classe. Polígono de frequência acumulada ou ogiva: é utilizado para analisar a evolução de uma ou mais distribuições em termos de frequência acumulada. Cartogramas: são diagramas que possuem como base o mapa geográfico do país, da região, do bairro ou outro espaço em estudo. Nele são apresentados dados referentes a sua posição geográfica, topográfica ou político-administrativa. Associam a informação ao local de sua ocorrência. Pictogramas: são diagramas que utilizam desenhos para representar a magnitude dos dados e suas correlações. Possuem mais finalidade publicitária ou de informação quando não se requer precisão. Esterogramas: Utiliza-se dos sólidos geométricos para representações tridimensionais. 3. ESTATÍSTICA DESCRITIVA – MEDIDAS ESTATÍSTICAS Após a coleta, organização e apresentação dos dados (tabelas e gráficos), em geral, têm-se a necessidade de analisar em termos de medidas numéricas (medidas estatísticas) as variáveis quantitativas em estudo. Temos dois tipos fundamentais de medidas, que são: as medidas de localização ou de tendência central, que mostram o valor representativo em torno do quais os dados tendem a agrupar-se, com maior ou menor frequência. São usadas para sintetiza em um único número o conjunto de dados observados. E as medidas de variabilidade ou de dispersão mostram o grau de afastamento dos valores observados em relação àquele valor representativo. MEDIDAS DE POSIÇAO 05101520250,0 |---- 0,50,5 |---- 1,01,0 |---- 1,51,5 |---- 2,02,0 |---- 2,5 05101520250,0 |---- 0,50,5 |---- 1,01,0 |---- 1,51,5 |---- 2,02,0 |---- 2,5 Médias Medidas de Tendência Central Moda Mediana Medidas de Posição Mediana Medidas Separatrizes Quartil Decil Centil (ou Percentil) MÉDIA ARITMÉTICA A média aritmética de um conjunto de valores é o valor obtido somando-se todos eles e dividindo-se o total pelo número de valores. É denotada por x (leia-se “x barra”) n x x å = , onde x são os valores observados (para dados não agrupados). n f x x å = . , se os dados estiverem agrupados em distribuição de frequência por pontos. n f PM x å = . , se os dados estiverem agrupados em distribuição de frequência por classes. MÉDIA HARMÔNICA A média harmônica de números reais positivos, é definida como sendo o numero de membros dividido pela soma do inverso dos membros, como segue: x n H 1 å = * Para dados agrupados por classes usa-se: å = Pm f n H A média harmônica nunca é maior do que a média geométrica ou do que a média aritmética. Utilizamos a Média Harmônica quando estamos tratando de observações de grandezas inversamente proporcionais como, por exemplo: velocidade e tempo. A média harmônica é particularmente recomendada para uma série de valores que são inversamente proporcionais, como para o cálculo da velocidade média, custo médio de bens comprados com uma quantia fixa. Exemplo: Em certa situação, a média harmônica provê a correta noção de média. Por exemplo, se metade da distância de uma viagem é feita a 40 km por hora e a outra metade da distância a 60 km por hora, então a velocidade média para a viagem é dada pela média harmônica, que é 48; isso é o total de tempo para a viagem seria o mesmo se se viajasse a viagem inteira a 48 quilômetros por hora. (Note, entretanto que se se tivesse viajado por metade do tempo em uma velocidade e a outra metade na outra velocidade, a média aritmética, nesse caso 50 km por hora, proveria a correta noção de média). Em finanças, a média harmônica é usada para calcular o custo médio de ações compradas durante um período. Por exemplo, um investidor compra $1000 em ações todo mês durante três meses. Se os preços na hora de compra forem de $8, $9 e $10, então o preço média que o investidor pagou por ação é de $8,926. Se o número de ações fosse sempre o mesmo, por exemplo, se um investidor comprasse 1000 ações por mês, neste caso utiliza-se a média aritmética seria usada. Outras utilizações são em previsões do tempo que é o campo estudado pelos meteorologistas. MODA Seja X um conjunto de dados estatísticos. Define-se Moda de X, denotada por mo como sendo o elemento mais frequente no conjunto. Um conjunto de dados pode ter: · Nenhuma moda (amodal); · Uma moda (unimodal); · Duas modas (bimodal) · Três ou mais modas (multimodal). Na identificação da moda em dados não agrupados e em dados agrupados por pontos, não é necessário calculo, pois a moda é o(s) elemento(s) mais frequente(s) no conjunto de dados. Na determinação da moda em dados agrupados por classes, devemos seguir alguns passos: 1º Passo: Identificar a classe de maior frequência (através da frequência simples absoluta). 2º Passo: Aplicar a fórmula: h lmo mo 2 1 1 D + D D + = Onde: lmo = limite inferior da classe modal ∆1 = diferença entre a frequencia da classe modal e frequência da classe imediatamente anterior. ∆2 = diferença entre a frequencia da classe modal e frequência da classe imediatamente posterior. h = amplitude de classe MEDIANA A mediana (também considerada uma separatriz) é um valor central de um conjunto de dados (em rol). Divide o conjunto de dados em duas partes iguais, uma acima e outra abaixo do valor da mediana. Na identificação da mediana em dados não agrupados, não é necessário calculo, pois a mediana é o elemento central dos dados colocados em rol quando o número de valores é impar. E é a média aritmética dos dois calores centrais quando o conjunto de dados é par. Na identificação da mediana em dados agrupados por pontos, é necessário verificar qual o valor central, da seguinte forma: 1º Passo: Calcular 2 n 2º Passo: Identificar através da frequência acumulada (F) onde se encontra o valor da mediana Na determinação da mediana em dados agrupados por classes, devemos seguir alguns passos: 1º Passo: Calcular 2 n 2º Passo: Identificar através da frequência acumulada (F) onde se encontra o valor da mediana 3º Passo: Aplicar a fórmula: h fmd fa n lmd md å - + = ) 2 / ( Onde: lmd = limite inferior da classe da mediana. ∑fa = somatório da frequencia anterior a classe da mediana. fmd = frequencia da classe da mediana. h = amplitude de classe Exercícios: Calcule e interprete a média aritmética, média harmônica, moda e mediana para os seguintes conjuntos de dados: 1) 2, 5, 6, 7, 2, 0, 1 2) 1, 5, 15, 18, 20 3) 1, 1, 1, 5, 5, 5, 46, 46, 46, 15, 15, 15 Medidas 8,5 9,0 10,0 6,5 8,0 Nº de peças 2 1 3 2 1 5) Medidas Nº de peças 4 |-- 5 5 |-- 6 2 6 6 |-- 7 15 7 |-- 8 20 8 |-- 9 8 9 |--10 5 QUARTIL (ou Quartis) Os Quartis dividem o conjunto em quatro partes iguais, denominados: Q1 (primeiro quartil), Q2 (segundo quartil) e Q3 (terceiro quartil). Calculando o Primeiro Quartil - Q1: 1º Passo: Calcular 4 n 2º Passo: Identificar através da frequência acumulada (F) onde se encontra o valor do primeiro quartil 3º Passo: Se for uma distribuição de frequência por classes, aplicar a fórmula: h fQ fa n lQ Q 1 1 1 ) 4 / ( å - + = Calculando o Segundo Quartil – Q2: Usar o mesmo cálculo da mediana Calculando o Terceiro Quartil – Q3: 1º Passo: Calcular 4 3 n 2º Passo: Identificar através da frequência acumulada (F) onde se encontra o valor do terceiro quartil 3º Passo: Se for uma distribuição de frequência por classes, aplicar a fórmula: h fQ fa n lQ Q 3 3 3 ) 4 / 3 ( å - + = DECIL (ou Decis) Os Decis dividem o conjunto em dez partes iguais. Desta forma, haverá em um conjunto, nove Decis. Calculando o Decili – Di: 1º Passo: Calcular 10 in 2º Passo: Identificar através da frequência acumulada (F) onde se encontra o valor do decil procurado. 3º Passo: Se for uma distribuição de frequência por classes, aplicar a fórmula: h fD fa n i lD D i i i å - + = ) 10 / . ( CENTIL OU PERCENTIL Os Centis (ou Percentis) são Medidas Separatrizes que dividem o conjunto em cem partes iguais. Teremos, assim, noventa e nove Centis. Infelizmente, torna-se inviável desenhar o conjunto com as suas cem divisões! Mas, basta imaginar a reta acima (a reta do Decil), e “enxergar” que, entre dois Decis consecutivos existem dez Centis! Dessa forma, quando chegarmos ao primeiro Decil, teremos andado dez Centis; quando chegarmos ao segundo Decil, estaremos no vigésimo Centil, e assim por diante. Obs: Md = Q2 = D5 = C50 Calculando o Percentil i – Pi: 1º Passo: Calcular 100 in 2º Passo: Identificar através da frequência acumulada (F) onde se encontra o valor do percentil procurado. 3º Passo: Se for uma distribuição de frequência por classes, aplicar a fórmula: h fP fa n i lP P i i i å - + = ) 100 / . ( MEDIDAS DE DISPERSÃO ou DE VARIABILIDADE Dificilmente uma única medida descreve de modo satisfatório um conjunto de dados. Tomemos como exemplo os seguintes conjuntos de dados: 25, 28, 31, 34, 37 17, 23, 30, 39, 46 Ambos possuem a mesma média (31). No entanto, percebe-se intuitivamente que o conjunto B acusa dispersão muito maior do que do conjunto A. Torna-se então necessário estabelecer medidas que indiquem o grau de dispersão, ou de variabilidade, em relação ao valor central. Para medir a dispersão dos dados em torno da média, utilizaremos as medidas de dispersão: 1) AMPLITUDE TOTAL (H ou R): define-se como a diferença entre o maior e o menor valor do conjunto de dados. Da seguinte forma H = X max - X min No exemplo acima, a amplitude do conjunto A é H = 37 – 25 = 12, enquanto que no conjunto B é H = 46 – 17 = 29. A amplitude de B é quase 2,5 vezes a de A. fácil de calcular, a amplitude tem a desvantagem de levar em conta somente dois valores, desprezando todos os outros. Para dados agrupados por classes, o cálculo da amplitude total considera a diferença entre o limite superior da última classe e o limite inferior da primeira classe. 2) VARIÂNCIA (σ2 ou S2): é a média aritmética do quadrado dos desvios. No processo de cálculo, vamos verificar que a determinação da variância é o cálculo anterior ao cálculo do desvio padrão. 3) DESVIO PADRÃO ( σ ou S): É a raiz quadrada da média aritmética dos quadrados das diferenças (distâncias) entre cada valor e a média aritmética do conjunto e é denotada por σ (desvio padrão populacional) ou S (desvio padrão amostral). Assim: a) para dados não agrupados, calcula-se: n x x å - = 2 ) ( s , para desvio padrão populacional. 1 ) ( 2 - - = å n x x S , para desvio padrão amostral. b) para dados agrupados por pontos, calcula-se: n f x x i å - = 2 ) ( s , para desvio padrão populacional. 1 ) ( 2 - - = å n f x x S , para desvio padrão amostral. c) para dados agrupados por classes, calcula-se: n f x pm å - = 2 ) ( s , para desvio padrão populacional. 1 ) ( 2 - - = å n f x pm S , para desvio padrão amostral. 4) COEFICIENTE DE VARIAÇÃO (CV) É uma medida relativa de variabilidade, em geral expressa em % (porcentagem). 100 Média CV s = O CV caracteriza a dispersão dos dados em relação ao seu valor médio. O objetivo é evitar enganos de interpretação, pois uma pequena dispersão absoluta, pode ser na verdade, considerável quando comparada com a ordem de grandeza dos valores da variável e vice-versa. Além disso, o CV permite a comparação de variáveis medidas em unidades diferentes. Podemos interpretar seu resultado pela comparação com o resultado de outro(s) grupo(s) de valores ou podemos interpretar o CV conforme indicação abaixo. Porém a mesma não deve ser vista como uma regra rígida de classificação. CV maior ou igual a 30 % → indica alto grau de dispersão e consequentemente, pequena representatividade da média. CV menor que 30 % → indica baixo grau de dispersão. A média será tanto mais representativa quanto menor for o CV. Exercícios: Calcule e interprete a amplitude total, a variância, o desvio padrão e o coeficiente de variação para os seguintes conjuntos de valores: 1) 2, 5, 6, 7, 2, 0, 1 2) 1, 5, 15, 18, 20 3) 1, 1, 1, 5, 5, 5, 46, 46, 46, 15, 15, 15 Medidas 8,5 9,0 10,0 6,5 8,0 Nº de peças 2 1 3 2 1 5) Medidas Nº de peças 4 |-- 5 5 |-- 6 2 6 6 |-- 7 15 7 |-- 8 20 8 |-- 9 8 9 |--10 5 MEDIDAS DE ASSIMETRIA E CURTOSE As medidas de assimetria e curtose são as que restam para completarmos o quadro das estatísticas descritivas, que proporcionam, juntamente com as medidas de posição e dispersão, a descrição e compreensão completas da distribuição de frequências estudadas. As distribuições de frequências não diferem apenas quanto ao valor médio e a variabilidade, como também quanto a sua forma. As medidas de assimetria referem-se à forma da curva de uma distribuição de frequências, mais especificamente do polígono de frequência ou do histograma. Simetria: uma distribuição de frequência é simétrica quando a média, mediana e moda são iguais, ou seja, apresentam um mesmo valor, ou ainda, coincidem num mesmo ponto. Assimetria: quando a média, mediana e a moda recaem em pontos diferentes da distribuição, isto é, apresentam valores diferentes, sendo que o deslocamento desses pontos pode ser para a direita ou para a esquerda. Quanto ao grau de deformação, as curvas de frequência podem ser: Principais Medidas de Assimetria Método de Comparação entre Medidas de Tendência Central Trata-se do método mais rudimentar, o qual não permite estabelecer até que ponto a curva analisada se desvia da simetria. A comparação é bem simples. x > Mo ( Assimetria Positiva x = Mo ( Simetria x < Mo ( Assimetria Negativa Critério de Pearson Quando uma distribuição deixa de ser simétrica, a Mo, a Md e a média aritmética vão se afastando, aumentando cada vez mais a diferença entre a x e a Mo (x – Mo). Podemos usá-la para medir assimetria, porém é melhor usarmos em termos relativos. Primeiro Coeficiente de Assimetria de Pearson s Mo x As - = Segundo Coeficiente de Assimetria de Pearson Quando a distribuição for quase simétrica ou moderadamente assimétrica, pode-se calcular mais facilmente seu grau de assimetria substituindo na fórmula a MODA pelo seu valor em função da média aritmética e da mediana, segundo a relação empírica proposta por Pearson: (x – Mo) ( 3 (x – Md) Como essas relações são aproximadas e não exatas, somente quando a distribuição for simétrica elas se equivalerão. -3 ( As ( 3 Não é comum o aparecimento de curvas de frequências com deformação superior a ( 1. O primeiro coeficiente de Assimetria de Pearson tem o inconveniente de requerer a determinação prévia da moda. Assim, quando as distribuições não se apresentarem com forte assimetria, deve-se dar preferência ao Segundo Coeficiente de Assimetria de Pearson. CURTOSE A Curtose ou excesso indica até que ponto a curva de frequências de uma distribuição se apresenta mais afilada ou mais achatada do que uma curva padrão, denominada curva normal. O que significa analisar um conjunto quanto à Curtose? Significa apenas verificar o “grau de achatamento da curva”. Ou seja, saber se a Curva de Frequência que representa o conjunto é mais “afilada” ou mais “achatada” em relação a uma Curva Padrão, chamada de Curva Normal! Teremos, portanto, as seguintes possibilidades: Quando se trata de Curtose, não há como extrairmos uma conclusão sobre qual será a situação da distribuição – se mesocúrtica, platicúrtica ou leptocúrtica – apenas conhecendo os valores da Média, Moda e Mediana.Outra observação relevante, é que não existe uma relação entre as situações de Assimetria e as situações de Curtose de um mesmo conjunto. Ou seja, Assimetria e Curtose são medidas independentes e que não se influenciam mutuamente! Existem duas maneiras distintas de calcular o Índice de Curtose de um conjunto. · Índice Percentílico de Curtose: Encontraremos este índice usando a seguinte fórmula: ( ) ( ) 1 9 1 3 2 D D Q Q C - - = Onde: Q3 é o terceiro quartil; Q1 é o primeiro quartil; D9 é o nono decil e D1 é o primeiro decil. · Outra forma de apresentar o Índice Percentílico de Curtose: ( ) 1 9 D D k C - = Onde: K é a Amplitude Semi-interquartílica; D1 é o primeiro Decil e D9 é o nono Decil. Obs: Amplitude Semi-Interquartílica (k), é dada por: ( ) 2 1 3 Q Q k - = Exemplo: Em um ensaio para o estudo da distribuição de um atributo financeiro (X), foram examinados 200 itens de natureza contábil do balanço de uma empresa. Esse exercício produziu a tabela de frequência abaixo. A coluna Classes representa intervalos de valores de X em reais e a coluna F representa a frequência relativa acumulada. Não existem observações coincidentes com os extremos das classes. Classes F(%) 70 – 90 90 – 110 110 – 130 130 – 150 150 – 170 170 – 190 190 - 210 5 15 40 70 85 95 100 Entende-se por curtose de uma distribuição seu grau de achatamento em geral medido em relação à distribuição normal. Uma medida de curtose é dada pelo quociente k = Q / (P90-P10), onde Q é a metade da distância interquartílica e P90 e P10 representam os percentis de 90% e 10%, respectivamente. Qual o valor da curtose k para a distribuição de X. Resolução: ( ) ( ) 1 9 1 3 2 D D Q Q C - - = ( ( ) ( ) 100 180 2 118 6 , 156 - - = C ( 242 , 0 = C ( Resposta! Interpretação do Resultado do Índice Percentílico de Curtose: A questão acima foi resolvida pela mera aplicação da fórmula do índice percentílico. Todavia, poderemos precisar não apenas o resultado do índice, mas questionar a situação de curtose em que se encontra aquele conjunto. Ou seja, desejar saber se a distribuição é Mesocúrtica, Leptocúrtica, ou Platicúrtica. Daí será necessário saber interpretar o resultado do índice de Curtose. No caso deste Índice Percentílico, a leitura que faremos do resultado é a seguinte: Se C < 0,263 ( A distribuição é LEPTOCÚRTICA; Se C = 0,263 ( A distribuição é MESOCÚRTICA; Se C > 0,263 ( A distribuição é PLATICÚRTICA. Exercícios gerais 1) Em uma pesquisa realizada com funcionários de uma empresa, identificaram-se os seguintes indicadores: (1) idade (2) profissão (3) grau de instrução (4) renda (5) sexo (6) local de moradia (7) Quantidade de livros que possui a) Das variáveis acima, quais são as quantitativas e quais são as qualitativas? b) Das variáveis quantitativas, quais são discretas? 2) Os dados a seguir referem-se ao número de livros adquiridos, no ano passado, pelos 40 alunos da turma: 0 2 1 1 0 4 3 2 3 5 8 0 1 6 5 3 2 1 6 4 4 2 1 0 3 1 2 0 2 1 3 4 3 2 1 0 2 1 0 3 (a) Organize os dados em uma distribuição de frequência por pontos. (b) Qual o percentual de alunos que adquiriram menos do que 3 livros? (c) Qual o percentual de alunos que adquiriram pelo menos 4 livros? (d) Quantos livros foram adquiridos pelos 40 alunos? (e) Calcule e interprete a média e o coeficiente de variação 3) Em certa região a temperatura média é 21º C e a precipitação média é 700 mm. O desvio padrão para temperatura é 5ºC, enquanto que a variância para a precipitação é 1225 mm2 Qual dos dois fenômenos apresenta maior variabilidade? Justifique. 4) Uma empresa possui dois serventes recebendo salários de R$950,00 cada um, quatro auxiliares recebendo R$700,00 cada um, um chefe com salário de R$1.500,00 e três técnicos recebendo R$ 2.200,00 cada um. O salário médio será? 5) A Distribuidora de Refrigerantes Alegria fez um levantamento sobre o consumo semanal (em litros) por pessoa, durante um mês, na cidade de Santa Cruz do Sul, obtendo a seguinte distribuição: CONSUMO Nº DE PESSOAS 0,0 (( 0,5 0,5 (( 1,0 1,0 (( 1,5 1,5 (( 2,0 2,0 (( 2,5 10 25 9 7 6 a) Coloque a tabela e o gráfico dentro das normas b) Calcule as medidas de tendência central c) Calcule as medidas de dispersão 6) A poluição causada por óleo em mares e oceanos estimula o crescimento de certos tipos de bactérias. Uma contagem de microrganismos presentes no petróleo (número de bactérias por 100 mililitros), em 12 porções de água do mar, indicou as seguintes medidas: 49 70 54 67 59 40 71 67 67 52 68 68 (a) Determine e interprete a média, mediana e moda. (b) Calcule o desvio padrão. 7) Os 150 clientes da empresa estão cadastrados em um banco de dados mantido constantemente atualizado. Descreva como podemos fazer uma amostragem: para selecionar 1/3 dos cadastros dos clientes utilizando: a) Amostragem aleatória simples b) Amostragem sistemática 8) Quais são as vantagens e desvantagens da utilização de amostragem em pesquisas? Quais são as vantagens e desvantagens de se aplicar censo? O censo é sempre possível de ser aplicado? 9) Observando as taxas de octano no combustível de diversas marcas de gasolina, têm-se os seguintes resultados: Taxa de octano Quantidade de resultados 88 -| 89,2 2 89,2 -| 90,4 16 90,4 -| 91,6 120 91,6 -| 92,8 105 92,8 -| 94 26 94 -| 95,2 1 Calcule e interprete: a) Média, mediana e moda. b) Desvio padrão e Coeficiente de variação c) Interprete as medidas calculadas 10) A tabela apresenta o salário de um grupo de 100 funcionários. Calcular as medidas conhecidas Salários semanais para 100 operários não especializados Salários semanais Nº. de funcionários 240 |-- 340 7 340 |-- 440 20 440 |-- 540 33 540 |-- 640 25 640 |-- 740 11 740 |-- 840 4 ∑ 100 � EMBED Equation.3 ��� � EMBED Equation.3 ��� Curva platicúrtica Curva mesocúrtica Curva leptoocúrtica � EMBED Excel.Sheet.8 ��� _1517401253.unknown _1517406355.unknown _1517406611.unknown _1517406629.unknown _1517407029.unknown _1517406467.unknown _1517402300.unknown _1517402318.unknown _1517402346.unknown _1517401349.unknown _1214070625.unknown _1368212415.unknown _1368212417.unknown _1500811310.xls Gráfico1 0,0 |---- 0,5 0,5 |---- 1,0 1,0 |---- 1,5 1,5 |---- 2,0 2,0 |---- 2,5 Nº DE PESSOAS 10 25 9 7 6 Plan1 CONSUMO Nº DE PESSOAS 0,0 |---- 0,5 10 0,5 |---- 1,0 25 1,0 |---- 1,5 9 1,5 |---- 2,0 7 2,0 |---- 2,5 6 Plan1 Nº DE PESSOAS Consumo de refrigerante Plan2 Plan3 _1368212416.unknown _1214070626.unknown _1214070624.unknown
Compartilhar