Baixe o app para aproveitar ainda mais
Prévia do material em texto
�PAGE � �PAGE �1� DEPARTAMENTO DE MATEMÁTICA ESTATÍSTICA PARA A PSICOLOGIA PROFESSORA: VERA LUCIA BODINI 2014 � CONSIDERAÇÕES GERAIS SOBRE ESTATÍSTICA Introdução A palavra estatística origina-se da palavra “Status” (Estado em latim), por ser utilizada pelo mesmo no levantamento de dados, com a finalidade de orientar decisões governamentais. Decisões estas, a princípio, ligadas a taxação de impostos (censo em latim significa taxar), regimentação de homens para a guerra, determinação de estratégias de batalhas, e outros. Era fundamental se conhecer quantas armas, homens, cavalos se dispunha para uma batalha, ou mesmo quantas famílias deveriam pagar impostos. Podemos considerar a estatística como “a ciência que se preocupa com a organização, descrição, análise e interpretação de dados experimentais” ou “matemática aplicada a dados em observação”. Ou através de um conceito mais atual, podemos considera-se a estatística como “um conjunto de métodos e processos quantitativos que serve para estudar e medir os fenômenos coletivos” ou ainda como “um conjunto de métodos destinados à coleta, organização, resumo, apresentação e análise de dados e observações, bem como a tomada de decisões baseadas em tais análises”. Seu maior desenvolvimento deu-se, a partir do século XVII, com os estudos de Bernoulli, Pascal, Laplace, Gauss, Pearson, Fisher, Poisson e outros que estabeleceram a forma mais atual de seu uso. Contudo, é uma ciência nova, que ainda não alcançou seu estado definitivo. Continua a progredir conforme avança seu uso no estudo da população e conforme os avanços da informática. Cabe observar que alguns autores não a consideram como ciência, mas sim como método quando utilizada como instrumento de outra ciência. Popularmente o uso da estatística, está ligado a representação de dados experimentais através de tabelas e gráficos. Exemplos: movimento nas bolsas de valores, estatísticas de saúde, estatísticas de acidentes, estatísticas populacionais, etc. Entretanto está noção é apenas parcial, pois envolve somente a parte de organização e descrição de dados observados. Além deste enfoque existe todo um campo de atuação dentro da ciência estatística, que se refere ao levantamento, análise e interpretação desses dados e o trabalho com probabilidade. A ciência estatística é aplicável a qualquer ramo do conhecimento onde se manipulem dados experimentais. Assim, a física, a química, a engenharia, a medicina, a psicologia, a biologia, as ciências sociais, as ciências administrativas, a agronomia, etc..., tendem, cada vez mais a servir-se dos métodos estatísticos como ferramenta de trabalho; justificando a sua grande importância. Dentro desta idéia podemos considerar a ciência estatística, segundo a divisão adotada por grande parte dos estatísticos, que é a seguinte: ESTATÍSTICA DESCRITIVA: é o ramo da estatística que compreende a organização, o resumo e, em geral, a simplificação de informações. Utiliza métodos numéricos e gráficos para descrever fatos. ESTATÍSTICA INDUTIVA (inferência estatística): é o ramo da estatística que tem por objetivo obter e generalizar conclusões a partir da análise e interpretação de dados amostrais. A idéia básica da amostragem é efetuar determinada mensuração sobre uma parcela pequena, mas típica, de determinada população e utilizar esta informação para fazer inferência sobre a população, ao relacionar com a probabilidade e é utilizada para analisar situações que envolvem o acaso. Permite analisar o tamanho do erro amostral ao se fazer inferência. Observa-se que estas divisões não são totalmente distintas, sua utilização e abrangência possuem pontos de entrelaçamento, como descrição de dados, teoria da probabilidade e análise e interpretação de dados amostrais. Tendo a teoria e os fundamentos da inferência com base na teoria da probabilidade. Conceitos básicos Estatística: estuda fenômenos coletivos, sociais, ultrapassando o aspecto individual. No singular, significa o conjunto de procedimentos usados na coleta, análise e interpretação dos dados numéricos. Estatísticas ou estimativas: no plural, refere-se aos resultados das relações calculadas com dados de uma amostra. Estimadores: referem-se a uma característica numérica estabelecida para uma amostra e são simbolizados por caracteres latinos. Parâmetros: refere-se a uma característica numérica estabelecida para toda a população e são simbolizados por caracteres gregos. População ou universo (N): é um conjunto de todas as unidades em observação (pessoas, objetos, experimentos ou eventos) sobre o fenômeno em estudo, sendo que a partir destas unidades se deseja tomar uma decisão. Essas observações apresentam pelo menos uma característica comum e observável, delimitando inequivocamente quais os elementos que pertencem à população e quais os que não pertencem. Deste modo uma população pode ser finita ou infinita. População finita: é aquela em que o número de unidades em observação pode ser contado e assume um número limitado. Exemplos: eleitores de um município; clientes atendidos em um supermercado no dia; carteira de clientes de um banco; e quantidade de experimentos realizados. População infinita: é aquela em que o número de observações não possui um quantidade limitada. Exemplos: clientes de um supermercado; e unidades produzidas em uma linha de produção (incluindo as produzidas até o momento e as que serão produzidas no futuro) Amostra (n): é um subconjunto representativo da população (não-vazio e finito). Onde todos os elementos serão examinados para a realização do estudo desejado. Os resultados obtidos da amostra devem ser muito próximos dos obtidos do estudo da população. É intuitivo que quanto maior a amostra, mais precisas e mais confiáveis deverão ser as induções realizadas sobre a população. Desta forma, poderíamos dizer que o ideal seria o exame completo da população (censo); porém esta conclusão é válida em teoria, mas na prática isto nem sempre se configura, até porque o levantamento de toda população demanda custo, tempo, acesso a população e um grande número de pessoas envolvidas, o que nem sempre é possível. Algumas vezes não se conhece toda a população, e nem sempre o resultado da população traz melhores resultados do que os colhidos através de um bom processo de amostragem. Amostragem: é o levantamento envolvendo os elementos de uma amostra de uma população e tem por finalidade fazer generalizações sobre esta população. Censo ou recenseamento: é o levantamento envolvendo todos os elementos da população. Propriedade principais do censo: admite erro processual zero e tem confiabilidade de 100%; é caro; lento; quase sempre desatualizado; e nem sempre é viável. Inferência ou estimação: é produzir afirmações sobre uma dada característica dos elementos da população a partir de dados colhidos de uma amostra representativa da população. Propriedades principais da estimação: admite erro processual positivo e tem confiabilidade menor que 100%; é barata; rápida; atualizada; e é sempre viável. Variáveis: são as características investigativas, e se dividem em: Qualitativas: que apresentam uma qualidade ou atributo: nominais: para as quais não existe ordenação. Exemplos: sexo; religião; estado de um produto (bom ou defeituoso); cor de cabelos; e outros. ordinais: para as quais existe uma certa ordenação. Exemplos: grau de instrução; graduações como: bom, razoável e ruim; e outros. Quantitativas: que apresentam números resultantes de uma contagem ou de uma mensuração: discretas ou descontínuas: cujos possíveis valores formam um conjunto finito ou enumerável de números e resultam, freqüentemente, de uma contagem assumindo valores inteiros. Exemplos: nº de filhos de uma família; nº de defeitos em uma unidade; e nº de empregados da empresa. contínuas: cujos possíveis valores formamum intervalo de números reais e resultam, normalmente, de uma mensuração. Exemplos: altura; peso; renda; temperatura; pressão; tempo de duração de um dispositivo elétrico. Dados estatísticos: são as informações resultantes de censo ou de amostragem, representando, muitas vezes, uma quantidade muito grande de dados que com o uso da disciplina de estatística encontra-se formas racionais para a obtenção de informações a respeito de um fenômeno coletivo, além de obter conclusões válidas para o fenômeno e também permitir tomada de decisões, através das observações. Arredondamento de números Dependendo da variável que estamos trabalhando devemos utilizar o número de casas decimais adequadas a situação, o que pode nos levar a arredondar algumas das variáveis. Como por exemplo: a)peso de um produto X em geral, não há necessidade de mais de duas casas decimais, b) medida de uma peça A são suficientes duas casas decimais Normas de arredondamento de números: quando o primeiro algarismo a ser abandonado for 0, 1, 2, 3 ou 4, fica inalterado o último algarismo. quando o primeiro algarismo a ser abandonado for 6, 7, 8 ou 9, deve-se acrescer uma unidade no algarismo anterior. quando o primeiro algarismo a ser abandonado for 5, vamos considerar indiferente a inalternância ou o acréscimo de uma unidade no último algarismo. Quando houver parcelas e total e ocorrer divergências no arredondamento, deve ser corrigida a parcela ou parcelas onde o erro relativo for menor. No cálculo de porcentagem isto é muito comum de ocorrer, neste caso faz-se o arredondamento para mais ou para menos, conforme a necessidade, na maior ou nas maiores parcelas, pois é sobre elas que a proporção de erro é menor. Deve-se sempre evitar arredondamentos sucessivos. Exemplos: arredondar para uma casa decimal 15,4457 = 15,4 104,69890 = 104,7 234,876 = 234,9 34,25 = 34,2 ou 34,3 34,28 = 34,3 34,20 = 34,2 ESTATÍSTICA DESCRITIVA – APRESENTAÇÃO DOS DADOS Como já vimos a estatística oferece técnicas para: coleta de dados; organização sumária dos dados; apresentação dos dados; descrição dos dados; e análise de dados e observações para que se possa tomar decisões. A Estatística Descritiva desenvolve o trabalho até a descrição dos dados; a análise destes fica para ser desenvolvida pela Estatística Inferencial. Coleta de dados Consiste na busca dos dados componentes do fenômeno a ser estudado. É uma etapa importante, pois o resultado de todo o trabalho depende desta fase. Ou seja, todas as outras etapas dependem da definição do problema, do planejamento, da definição do tipo de dados que serão coletados, de como será feita a coleta, e ainda é necessário que tenhamos conhecimentos teóricos sobre população, censo, amostra e amostragem. Procedendo depois disto a coleta propriamente dita dos dados. Definição do problema e planejamento: consiste na definição do que exatamente queremos pesquisar. Quais as informações que existem sobre o assunto? O que precisamos levantar de informações? Que tipo de estudo iremos desenvolver? Quais as informações necessárias ao estudo? Como precisamos que sejam medidas estas variáveis? Que tipo de instrumento de coleta de dados iremos utilizar (formulário, questionário, planilha, entrevista ou outro)? Vamos fazer censo ou amostragem? Se decidirmos por amostragem como vai ser delineada/coletada esta amostra? Quais os prazos de dispomos? Tipos de dados estatísticos: Dados primários: são os dados publicados por quem os coletou. Dados secundários: são dados publicados por quem não os coletou, e estão sendo utilizados com referência da fonte utilizada. Amostragem: quando optamos por fazer a pesquisa não utilizando toda a população devemos recorrer a teoria da amostragem, que tem como objetivo definir as regras para definição do tamanho da amostra (nº de elementos) e da forma de seleção desta amostra; garantindo a representatividade da amostra. A amostragem pode ser dividida em dois grupos: Amostragem probabilística: é a amostragem onde a probabilidade de cada elemento da população pertencer a amostra é conhecida e diferente de zero. Isto implica em um plano de amostragem com regras bem definidas para a escolha/sorteio dos elementos que farão parte da amostra. Conhecendo a probabilidade de cada elemento da população pertencer a amostra, é possível calcular o tamanho da amostra e o erro amostral, de acordo com um determinado nível de confiança. Esses cálculos são baseados na Teoria da Probabilidade. Amostragem não probabilística: é a amostragem onde não é possível de determinar a probabilidade de cada elemento da população pertencer a amostra por isso não é possível calcular, de maneira objetiva e formal, o tamanho da amostra e o erro amostral Sempre que possível devemos optar pela amostragem probabilística. No entanto, em alguns casos, a amostragem não probabilística pode produzir resultados muito semelhantes aos da amostragem probabilística. Principais métodos de amostragem probabilística: Amostragem aleatória simples (AAS) Amostragem sistemática Amostragem estratificada Amostragem por conglomerado Amostragem por múltiplos estágios Principais métodos de amostragem não probabilística: Amostragem a esmo Amostragem em populações formadas por material contínuo Amostragem por cotas � Organização sumária dos dados A organização sumária de dados deve ser antecedida de uma análise crítica dos dados levantados, suprimindo valores estranhos ao levantamento ou mesmo checando se estes valores condizem com a realidade. Uma das maneiras mais prática e racional de organização de dados é através das séries estatísticas. Estas são classificadas segundo critérios de agrupamento das variáveis: 1. SÉRIE HISTÓRICA, TEMPORAL, CRONOLÓGICA OU EVOLUTIVA: os dados são agrupados segundo a época de ocorrência. Mantêm-se constantes o fenômeno (fator especificativo) e o local (fator geográfico); e o elemento variável é o tempo (fator cronológico) TABELA 1 - Número de pacientes atendidos na Clínica X, em Santa Cruz do Sul 2006-2012 ANO Nº de atendimentos 2006 230 2007 370 2008 480 2009 500 2010 530 2011 2012 520 120 FONTE: Setor de atendimento da clínica X Nota: dados preliminares do ano de 2012 2. SÉRIE GEOGRÁFICA, TERRITORIAL, ESPACIAL OU DE LOCALIZAÇÃO: os dados são agrupados segundo o local de ocorrência. Mantêm-se constantes o fenômeno (fator especificativo) e o tempo (fator cronológico); e o elemento variável é o local (fator geográfico). TABELA 2 – Município de origem dos pacientes atendidos na Clínica X, em março de 2012 Município Nº de pacientes Santa Cruz do Sul 30 Venâncio Aires Vera Cruz 25 25 Rio Pardo 15 Candelária 10 TOTAL 105 Fonte: dados fictícios 3. SÉRIE ESPECÍFICA OU CATEGÓRICA: é a série em que os dados são agrupados segundo o fenômeno ou modalidade de ocorrência. Onde se mantém constantes o local (fator geográfico) e o tempo (fator cronológico); e o elemento variável é o fenômeno (fator especificativo) TABELA 3 - Perfil dos pacientes atendidos no Programa ABCD – 2011 características Quantidades Mulheres 125 Homens 72 Pacientes economicamente ativos (em %) 54,00 Renda per capita (em milhares de US$) 5,84 Média de idade (em anos) 37,5 Fonte: Fichas de atendimento 4. SÉRIE DE DUPLA ENTRADA OU DE CONTINGÊNCIA: é a série em que os dados são agrupados observando a o comportamento de duas das variáveis que estamos trabalhando (fenômeno, local ou tempo). Em geral esta série é específico-temporal. TABELA 4 - Perfil dos pacientes atendidos na clínica X, em 2011 Município Adultos crianças Santa Cruz do Sul 20 10 Venâncio Aires Vera Cruz 20 15 5 10 Rio Pardo 10 5 Candelária8 2 TOTAL 73 32 Fonte: Fichas de atendimento 5. DISTRIBUIÇÃO DE FREQÜÊNCIA: é a série em que os dados são agrupados segundo a freqüência em que eles ocorrem; os elementos o local, tempo e fenômeno são constantes, estando agrupados segundo sua intensidade ou variação quantitativa. Antes de trabalharmos com a distribuição de freqüência propriamente dita, precisamos de alguns conceitos tais como: Freqüência: é o número de observações ou de repetições de um certo valor ou de uma modalidade em um levantamento de dados. Distribuições de freqüência: é uma forma de agrupamento ou de organização de dados em que as variáveis se apresentam com a respectiva freqüência. Dados brutos: são os dados anotados conforme foram coletados, sem estarem numericamente organizados. Rol : é a organização dos dados brutos em ordem crescente ou decrescente. Amplitude total (H ou R): é a diferença entre o maior e o menor valor observado (H = Xmax - Xmin ). Classe: é cada um dos grupos em que se divide a amplitude total dos dados. Todas as classes devem ter a mesma amplitude de classe. O número de classes (k) a ser usado na distribuição de freqüências pode ser calculado pela Regra de Sturges: k = 1 + 3,3 log n, ou ainda extraindo a raiz quadrada de n ajustando a no mínimo 5 e no máximo 15 classes. Símbolos que representam os intervalos de classes: 2 ׀─── 10, compreende valores iguais ou maiores que 2 e valores menores que 10 (resolução 886/66 do IBGE). 2 ───׀ 10, compreende valores maiores que 2 e valores menores ou iguais a 10. 2 ׀───׀ 10, compreende valores iguais ou maiores que 2 e valores menores ou iguais a 10. 2 ─── 10, compreende valores maiores que 2 e valores menores que 10 (ou seja não possui limites reais). 2 ou mais, possui um dos limites não definidos. Limites de classe ou da distribuição: na classe os limites são os valores extremos de cada classe, temos então L (limite superior da classe) e l (limite inferior da classe). Os limites da distribuição é o limite inferior da primeira classe e o limite superior da última classe. Amplitude de classe (h ou r): é determinada pela diferença entre o limite superior e o limite inferior da classe (h = L – l). Tendo o cuidado que todas as classes possuem a mesma amplitude, determina-se a amplitude de classe pela fórmula h = H : k Amplitude da distribuição: é a diferença entre os limites extremos da distribuição, ou seja é a diferença entre o e o limite superior da última classe e o limite inferior da primeira classe. Ponto médio (Pm): é o valor que divide a amplitude de classe em duas partes iguais. Pode ser calculado pela média aritmética do limite inferior e do limite superior da classe. O ponto médio é importante nos cálculos futuros, pois não utilizaremos um intervalo de valores e sim um único valor que representará cada classe. Freqüência simples absoluta (f): é o número de repetições de um valor individual ou de uma classe de valores da variável. Freqüência simples relativa (fr ou fr%): é a proporção de observações de um valor individual ou de um classe de valores em relação ao número total de observações (pode ser expressa em porcentagem, bastando multiplicar por 100, observando as regras de arredondamento). Permite comparar dos grupos de variáveis com quantidade diferentes de dados. Freqüência acumulada (F, Fr ou Fr%): é igual a soma das freqüências absolutas ou relativas dos valores individuais ou das classes anteriores com as freqüências absolutas ou relativas da classe ou do valor dessa classe. Distribuição de freqüência para dados não agrupados (distribuição de freqüência por pontos): é a distribuição de freqüência onde os valeres da variável estudada aparece individualmente. Em geral utilizada para organizar variáveis quantitativas discretas. Exemplo: Número de filhos dependentes dos funcionários da Empresa A, levantamento realizado em dezembro de 2004 (em rol). 0 – 0 – 0 – 0 – 0 – 0 - 1 – 1 – 1 – 1 – 1 – 1 – 1 – 1 – 1 - 2 2 – 2 – 2 – 2 – 2 – 2 - 2 – 2 – 2 – 2 – 3 – 3 – 3 – 3 – 3 – 3 3 – 3 – 3 – 3 – 3 – 3 - 3 – 3 – 3 – 4 – 4 – 4 – 4 – 4 – 4 – 4 4 – 4 – 4 – 4 – 4 – 4 - 4 – 5 – 5 – 5 – 5 – 5 – 5 – 5 – 5 – 5 N º de filhos f fr fr% F Fr Fr% 0 6 0,0937 9,37 6 0,0937 9,37 1 9 0,1406 14,06 15 0,2343 23,43 2 11 0,1719 17,19 26 0,4062 40,62 3 15 0,2345 23,45 41 0,6407 64,07 4 14 0,2187 21,87 55 0,8594 85,94 5 9 0,1406 14,06 64 1 100 ∑ 64 1 100 --- --- --- Fonte: dados hipotéticos Distribuição de freqüência para dados agrupados (distribuição de freqüência por classes): é a distribuição de freqüência onde os valeres da variável estudada aparece agrupados por faixas de valores, onde se considera a freqüência do agrupamento. Em geral utilizada para organizar variáveis quantitativas contínuas. Roteiro para elaboração de uma distribuição de freqüência com classes (ou intervalos): Obter os dados brutos que podem ser transformados em rol; Calcular a amplitude total (H ou R) dos conjuntos de variáveis; Calcular o número de classes (k) considerando no mínimo 5 e no máximo 15; Calcular a amplitude de classe (h ou r) com o arredondamento conveniente, sabendo que k vezes h deve ser igual ou maior que H; Determinar os limites das classes, escolhendo preferencialmente números que sejam usuais na medição que esta sendo usada; Formar as classes; Determinar a simbologia de classe a ser utilizada; Apresentar a freqüência relativa a cada classe, mediante contagem; Construir a distribuição de freqüência. Exemplo: dados brutos já transformados em rol relativos a idade (em anos) dos funcionários da Empresa A. 18 – 18 – 20 – 20 – 20 – 21 - 22 – 22 – 22 – 22 – 22 – 23 – 23 – 23 – 25 - 25 28 – 28 – 30 – 30 – 30 – 31 - 32 – 32 – 32 – 32 – 33 – 34 – 34 – 34 – 35 – 35 38 – 38 – 40 – 40 – 40 – 41 - 42 – 42 – 42 – 42 – 42 – 43 – 43 – 44 – 45 – 45 46 – 46 – 47 – 47 – 47 – 49 - 49 – 52 – 55 – 55 – 55 – 57 – 57 – 59 – 60 – 63 Cálculo da amplitude total ( H ou R) dos conjunto de variáveis H = Xmax - Xmin H = 63 – 18 = 45 Cálculo do número de classes: Regra de Sturges: k = 1 + 3,3 log n k = 1 + 3,3 log 64 k = 6, 96 ou seja k = 7 Cálculo da amplitude de classe: h = H : k h = 45 : 7 h = 6,5 Classes f Pm fr fr% F Fr Fr% 18 ׀─── 24,5 14 21,25 0,2188 21,88 14 0,2188 21,88 24,5 ׀─── 31 7 27,75 0,1094 10,94 21 0,3282 32,82 31 ׀─── 37,5 11 34,25 0,1719 17,19 32 0,5001 50,01 37,5 ׀─── 44 13 40,75 0,2031 20,31 45 0,7032 70,32 44 ׀─── 50,5 10 47,25 0,1562 15,62 55 0,8594 85,94 50,5 ׀─── 57 4 53,75 0,0625 6,25 59 0,9219 92,19 57 ׀── 63,5 5 60,25 0,0781 7,81 64 1 100 ∑ 64 ------- 1 100 ----- ----- ----- Fonte: dados hipotéticos Apresentação dos dados A apresentação de dados é realizada basicamente de duas formas: pela representação tabular e pela representação gráfica. A representação tabular (já vista anteriormente) tem a finalidade de sintetizar observações, facilitando a leitura e a compreensão dos dados coletados. A representação gráfica também sintetiza observações, porém produz uma impressão mais rápida e viva do fenômeno em estudo, apesar de algumas vezes a representação gráfica perder a precisão da representação tabular. É interessante que se observem alguns critérios na construção dos diagramas: Colocação de título com identificação do fenômeno, local e tempo. Identificação da procedência dos dados (fonte) Quando construído sobre os eixos das coordenadas cartesianas, a altura do diagrama deve ser de aproximadamente 60 a 70 % da largura (mede-se no eixo das ordenadas e no eixo dasabscissas) As escalas devem ser proporcionais as quantidades que se esta representando Os eixos devem ser do tamanho necessário para que sejam representadas as amplitudes das variáveis em estudo. Principais gráficos (ou diagramas): Diagrama de pontos (ou diagrama de dispersão): é construído, como a maioria dos diagramas, sobre o eixo das coordenadas cartesianas. É um diagrama bastante usado no estudo de regressão e correlação entre variáveis. Diagrama de linhas (ou de curvas): utilizado para representar séries temporais, é bastante útil quando queremos observar o desenvolvimento de um fenômeno no decorrer do tempo. Exemplo: vendas mensais da empresa nos últimos dois anos. Diagrama de colunas e de barras: usado para representar (em geral) séries estatísticas geográficas ou específicas. Difere do histograma. Diagramas de superfície: outra forma de representar o gráfico de linhas (ou de curvas), sua forma tende a realçar os dados representados. Diagramas de área: são formados pela representação proporcional das variáveis sobre figuras geométricas. Em geral utiliza-se como base o quadrado, retângulo ou círculo; e nestes ressalta-se o percentual que cada variáveis influencia no fenômeno estudado. Também são mais indicados para séries geográficas ou séries específicas. Não recomendados para quando temos grandes quantidades de resultados. Diagrama de vetores (polar ou circular): é uma opção ao diagrama de setores quando temos uma quantidade maior de dados. É interessante na representação de séries temporais. Diagramas de distribuição de freqüência (histograma, polígono de freqüência e polígono de freqüência acumulada): histograma: representa a freqüência de cada intervalo de classe através de colunas justapostas. Polígono de freqüência: é utilizado para comparação entre resultados de duas ou mais distribuições de freqüência, é construído utilizando a freqüência e o ponto médio dos intervalos de classe. Polígono de freqüência acumulada ou ogiva: é utilizado para analisar a evolução de uma ou mais distribuições em termos de freqüência acumulada. Cartogramas: são diagramas que possuem como base o mapa geográfico do país, da região, do bairro ou outro espaço em estudo. Nele são apresentados dados referentes a sua posição geográfica, topográfica ou político-administrativa. Associam a informação ao local de sua ocorrência. Pictogramas: são diagramas que utilizam desenhos para representar a magnitude dos dados e suas correlações. Possuem mais finalidade publicitária ou de informação quando não se requer precisão. Esterogramas: Utiliza-se dos sólidos geométricos para representações tridimensionais. � ESTATÍSTICA DESCRITIVA – MEDIDAS ESTATÍSTICAS Após a coleta, organização e apresentação dos dados (tabelas e gráficos), em geral, têm a necessidade de analisarmos em termos de medidas numéricas (medidas estatísticas) as variáveis quantitativas em estudo. Neste capítulo abordaremos os dois tipos de medidas, que são as fundamentais para o nosso estudo. As medidas de localização ou de tendência central, que mostram o valor representativo em torno do qual os dados tendem a agrupar-se, com maior ou menor freqüência. São usadas para sintetiza em um único número o conjunto de dados observados. As medidas de variabilidade ou de dispersão mostram o grau de afastamento dos valores observados em relação àquele valor representativo. MEDIDAS LOCALIZAÇÃO OU DE TENDÊNCIA CENTRAL 1) MÉDIA ARITMÉTICA A média aritmética de um conjunto de valores é o valor obtido somando-se todos eles e dividindo-se o total pelo número de valores. 2) MODA Seja X um conjunto de dados estatísticos. Define-se Moda de X, denotada por mo como sendo o elemento mais freqüente no conjunto. Um conjunto de dados pode ter: Nenhuma moda (amodal); Uma moda (unimodal); Duas modas (bimodal) Três ou mais modas (multimodal). 3) MEDIANA A mediana (também considerada uma separatriz) é um valor central de um conjunto de dados (em rol). Divide o conjunto de dados em duas partes iguais, uma acima e outra abaixo do valor da mediana. MEDIDAS DE DISPERSÃO ou DE VARIABILIDADE Dificilmente uma única medida descreve de modo satisfatório um conjunto de dados. Tomemos como exemplo os seguintes conjuntos de dados: 25, 28, 31, 34, 37 17, 23, 30, 39, 46 Ambos possuem a mesma média (31). No entanto, percebe-se intuitivamente que o conjunto B acusa dispersão muito maior do que do conjunto A. Torna-se então necessário estabelecer medidas que indiquem o grau de dispersão, ou de variabilidade, em relação ao valor central. Para medir a dispersão dos dados em torno da média, utilizaremos as medidas de dispersão: 1) AMPLITUDE TOTAL (H ou R): defini-se como a diferença entre o maior e o menor valor do conjunto de dados. Da seguinte forma H = X max - X min No exemplo acima, a amplitude do conjunto A é H = 37 – 25 = 12, enquanto que no conjunto B é H = 46 – 17 = 29. A amplitude de B é quase 2,5 vezes a de A. fácil de calcular, a amplitude tem a desvantagem de levar em conta somente dois valores, desprezando todos os outros. Para dados agrupados por classes, o cálculo da amplitude total considera a diferença entre o limite superior da última classe e o limite inferior da primeira classe. 2) VARIÂNCIA ( 2 ou S2 ): é a média aritmética do quadrado dos desvios. No processo de cálculo, vamos verificar que a determinação da variância é o cálculo anterior ao cálculo do desvio padrão. 3) DESVIO PADRÃO ( ou S): É a raiz quadrada da média aritmética dos quadrados das diferenças (distâncias) entre cada valor e a média aritmética do conjunto e é denotada por (desvio padrão populacional) ou S (desvio padrão amostral). Assim: 4) COEFICIENTE DE VARIAÇÃO (CV) É uma medida relativa de variabilidade, em geral expressa em % (porcentagem). . 100 O CV caracteriza a dispersão dos dados em relação ao seu valor médio. O objetivo é evitar enganos de interpretação, pois uma pequena dispersão absoluta, pode ser na verdade, considerável quando comparada com a ordem de grandeza dos valores da variável e vice-versa. Além disso, o CV permite a comparação de variáveis medidas em unidades diferentes. Podemos interpretar seu resultado pela comparação com o resultado de outro(s) grupo(s) de valores ou podemos interpretar o CV conforme indicação abaixo. Porém a mesma não deve ser vista como uma regra rígida de classificação. CV maior ou igual a 30 % → indica alto grau de dispersão e conseqüentemente, pequena representatividade da média. CV menor que 30 % → indica baixo grau de dispersão. A média será tanto mais representativa quanto menor for o CV. _1101800369.unknown _1142107945.unknown _984372102.doc
Compartilhar