Baixe o app para aproveitar ainda mais
Prévia do material em texto
Material de propriedade do professor Carlos Martins – UNICAP Capítulo I - Preliminares Os Dados e a Estatística – INTRODUÇÃO A terminologia Estatística é proveniente da palavra Estado e foi utilizada primeiramente para designar levantamentos de dados, cuja finalidade era orientar o Estado em suas decisões. Neste sentido, foi também utilizada em épocas remotas para determinar o valor dos impostos cobrados dos cidadãos, para determinar a estratégia de uma nova batalha em guerras que se caracterizavam por uma sucessão de batalhas. (Para os comandantes era fundamental saber quantos homens, armas, cavalos etc., dispunham após a última batalha). A estatística teve acelerado desenvolvimento a partir do século XVII, com os estudos de Bernoulli, Pascal, Laplace, Guass, Galton, Pearson e outros que estabeleceram suas características atuais. Atualmente, a estatística é definida da seguinte forma: Estatística é um conjunto de métodos e processos quantitativos que servem para estudar e mensurar os fenômenos coletivos A Estatística é considerada por alguns autores como ciência no sentido do estudo de uma população. E como método quando utilizada de forma instrumental por outra ciência. De modo geral, podemos dizer que a essência da ciência é a observação e que o seu objetivo básico é a inferência. Em qualquer ciência, engenharia, psicologia, medicina, economia, biologia, etc., modelos são usados para descrever fenômenos. Estes modelos são criados com base em um certo número de dados experimentais. Em toda ciência, uma grande quantidade de dados é usada e um tratamento matemático sempre é requerido, de modo a correlacionar estes dados entre si. Métodos estatísticos são utilizados para estes fins. 1.2 – MÉTODO ESTATÍSTICO - O método estatístico pode ser: cientifico ou experimental. 1.2.1 – O Método Científico Muitos dos conhecimentos que temos foram obtidos na Idade Média por acaso ou por necessidades práticas sem aplicação de um método. Atualmente, todo novo conhecimento resulta da observação e do estudo. Se bem que, muitos desses conhecimentos possam ter sido observados inicialmente por acaso, a verdade é, que desenvolvemos processos científicos para adquirirmos tais conhecimentos. 1.2.2 – O Método Experimental. O método experimental consiste em se manter constantes todas as causa (fatores), menos uma, e variar esta causa de modo que, o pesquisador possa descobrir seus efeitos, caso existam. É o método preferido no estudo da física e da química. Este curso tem como objetivo usar a estatística para a análise de processos em geral; saber selecionar uma amostra, saber tratar um conjunto de informações, saber fazer um planejamento experimental (determinar quantas e como experiências devem ser feitas), propor um modelo matemático que descreva o fenômeno, estimar os parâmetros deste modelo e fazer a análise dos erros. 1.2.3 – Modelos Existem basicamente dois tipos de modelos: modelos mecanicistas, desenvolvidos diretamente a partir de conhecimentos físicos básicos, e os modelos empíricos, desenvolvidos a partir de equações matemáticas do tipo exponencial, polinomial, logarítmica, por exemplo, com base em algum fenômeno físico conhecido. Em capítulos posteriores, a estimação de parâmetros de modelos físicos será estudada, assim como o planejamento das experiências necessárias para a geração de dados. 1.2.4 – A ESTATÍSTICA É ENFOCADA SEGUNDO DOIS ASPECTOS: ( ESTATÍSTICA DESCRITIVA – tem por objetivo descrever os dados observados. ( ESTATISTICA INDUTIVA – tem por objetivo obter e generalizar conclusões para a população, a partir de uma amostra, utilizando o cálculo das probabilidades. 1.2.5 – AMOSTRAGEM Quando se deseja colher informações sobre um ou mais aspectos de um grupo grande ou numeroso, verifica-se muitas vezes, ser praticamente impossível fazer um levantamento do todo. Daí a necessidade de investigar apenas uma parte dessa população ou universo. O problema da amostragem é, portanto, escolher uma parte (ou amostra), de tal forma que ela seja mais representativa possível do todo e, a partir dos resultados obtidos, poderem inferir para o total da população. Conceituando: ( População ou universo – É o conjunto constituído por todos os indivíduos que apresentem pelo menos uma característica comum. ( Amostra – É um subconjunto do universo, através do qual se faz um juízo ou inferência da população. 1.3 – FORMAS DE INVESTIGAÇÃO DE UMA POPULAÇÃO - Quando somos solicitados a estudar um fenômeno coletivo --podemos optar entre os seguintes processos estatísticos: ( Censo - É uma avaliação direta de um parâmetro, utilizando-se todos os componentes da população. ( Estimação - É uma avaliação indireta de um parâmetro, com base em um estimador através do cálculo das probabilidades. PROPRIEDADES PRINCIPAIS DO CENSO a) Admite erro processual zero e tem confiabilidade 100%. b) É caro. c) É lento. d) É quase sempre desatualizado. e) Nem sempre é viável. PROPRIEDADES PRINCIPAIS DA ESTIMAÇÃO a) Admite erro processual positivo e tem confiabilidade menor que 100%. b) É barata. c) É rápida. d) É atualizada. e) É sempre viável. 1.4 – FASES DO MÉTODO ESTATÍSTICO - Podemos distinguir no método estatístico as seguintes fases: Definição do Problema Planejamento Coleta dos Dados Apuração dos Dados Apresentação dos Dados Análise e interpretação de Dados 1.4.1 – Definição do Problema - Consiste em uma definição ou formulação correta do problema a ser estudado. 1.4.2 – Planejamento - Consiste em determinar os procedimentos necessários para resolver o problema, ou seja, como levantar informações sobre o assunto objeto do estudo. Que dados deverão ser obtidos? Etc,.. 1.4.3 – COLETA DE DADOS - A terceira etapa é essencialmente operacional, compreendendo a coleta das informações necessária a solução do problema. O passo seguinte é a coleta de dados. A coleta pode ser direta ou indireta. ( Direta - quando os dados são obtidos diretamente da fonte originária. Os valores assim compilados são chamados de dados primários, como, por exemplo, nascimentos, casamentos e óbitos, registrados no Cartório de Registro Civil, vendas registradas em notas fiscais da empresa etc. Quanto ao tempo, a coleta pode ser classificada em: ( Continua: quando realizada permanentemente; ( Periódica: quando é feita em intervalo de tempo; ( Ocasional: Quando efetuada sem época preestabelecida. ( Indireta - quando é inferida a partir dos elementos obtidos pela coleta direta. Os valores assim compilados são denominados de dados secundários, como, por exemplo, o cálculo de vida média, obtida pela pesquisa, nas tabelas demográficas publicadas pelo IBGE. A coleta indireta é feita, portanto, por deduções e conjeturas, podendo ser realizada por: ( Por analogia. ( Por proporcionalização. ( Por indícios. ( Por avaliação. A coleta de dados é feita por analogia quando o conhecimento de um fenômeno é induzido a partir de outro que com ele guarda relações de casualidade. A coleta de dados é feita por proporcionalização, quando o conhecimento de um fato se induz das condições quantitativas de uma parte dele. A coleta por indícios se dá quando são escolhidos fenômenos sintomáticos para discutir um aspecto geral da vida social A coleta é feita por avaliação quando, através de informações fidedignas ou estimativas cadastrais, onde se presume o estado quantitativo de um fenômeno. 1.4.4 – APURAÇÃO E CRÍTICA DE DADOS - Propõe-se eliminar os erros capazes de provocar futuros enganos na apresentação e análise, procede-se uma revisão crítica dos dados, suprimindo os valores estranhos ao levantamento. 1.4.5 – APRESENTAÇÃO DE DADOS – Existem duas formas de apresentação de dados: tabular e gráfica.A Associação Brasileira de Normas técnicas define que para a construção de uma tabela deve-se atender a resolução 886 do Conselho Nacional de Estatística. 1.4.6 – TABELAS - A construção de tabelas obedece à Resolução nº 886 de 26 de outubro de 1966, do Conselho Nacional de Estatística. Uma tabela deve apresentar: Titulo Cabeçalho, Corpo, Coluna indicadora e Rodapé. Título - Apresenta o conjunto de informações, as mais completas possíveis, que possam responder às seguintes perguntas: O quê? (referente ao fato) Quando? (correspondente à época) Onde? (relativo ao local) Cabeçalho - É a parte superior da tabela que especifica o conteúdo das colunas Corpo - É o conjunto de linhas e colunas que contém informações sobre a variável em estudo. Coluna indicadora - É à parte da tabela que especifica o conteúdo das linhas Rodapé - É onde são colocadas de preferência à fonte, as notas e as chamadas. Exemplo de uma tabela: Produção de Café Título Brasil 1991 - 1994 ____________________ C. indicadora Anos Produção (1000t) Cabeçalho ____________________ 1991 2.535 1992 2.666 1993 2.122 1994 3.750 _____________________ Rodapé Fonte: IBGE 1.4.7 – GRÁFICA - A representação gráfica tem por finalidade dar uma idéia, a mais imediata possível, dos resultados obtidos sobre o comportamento do fenômeno. 1.4.8 – ANÁLISE DOS RESULTADOS - A estatística tem como objetivo tirar conclusões sobre a população, a partir de informações fornecidas pela representatividade desta. Desta forma, utiliza-se dos métodos da estatística indutiva (inferência) para fazer a análise dos resultados obtidos. 1.5 – NORMAS DE APRESENTAÇÃO TABULAR. 1.5.1 – NORMAS GERAIS 1.5.2 – NÚMERO - Uma tabela deve ter número, inscrito no seu topo, sempre que um documento apresentar duas ou mais tabelas. A identificação de uma tabela deve ser feita com algarismos arábicos, de modo crescente, precedido da palavra tabela, podendo ser subordinada ou não a capítulos ou seções de um documento. 1.5.3 – TÍTULO - Toda tabela deve ter título para indicar o fato observado e a abrangência geográfica e temporal dos dados apresentados na mesma. As indicações do fato observado e a abrangência geográfica dos dados devem ser feitas sem abreviações, por extenso de forma clara e concisa. A abrangência temporal dos dados pode ser feita com abreviações, porém, de forma clara e concisa. 1.5.4 – MOLDURA - Toda tabela deve ter moldura para estruturar os dados a serem apresentados. A moldura de uma tabela é composta de, no mínimo, três traços horizontais paralelos. O primeiro para separar o topo e indicar o início da tabela. O segundo para separar cabeçalho e o terceiro para separar o rodapé e indicar o final da tabela. A moldura de uma tabela não deve ter traços verticais que a delimitam à esquerda e à direita. 1.5.5 – CABEÇALHO - É a parte da tabela que especifica o conteúdo das colunas, complementando o título. Deve ser feito com palavras ou com notações, de forma clara e concisa, sem abreviações. 1.5.6 – COLUNA INDICADORA - É a parte da tabela que especifica o conteúdo das linhas, complementando o título. Deve ser feito com palavras ou com notações, de forma clara e concisa, sem abreviações. 1.5.7 – UNIDADE DE MEDIDA - Toda tabela deve ter a unidade de medida inscrita no cabeçalho ou na coluna indicadora, sempre que houver necessidade de se indicar, completando o título, a expressão quantitativa ou metrológica dos dados. Deve ser feita com símbolos ou palavras entre parênteses. Exemplos: (metro) ou (m), (tonelada) ou (t), (1000R$) etc., 1.5.8 – SINAL CONVENCIONAL - Uma tabela deve ter sinal convencional sempre que houver necessidade de substituir um dado numérico. Neste caso, os sinais utilizados na tabela deverão ser apresentados em nota geral com seus respectivos significados. Os sinais convencionais são: a) - dado numérico igual a zero não resultante de arredondamento; b) .. indicando que o dado numérico não pode ser aplicado; c) ... indicando que o valor da informação é desconhecido ou não está disponível; d) X utilizado para não individualizar a informação; e) 0 ou 0,0 indica que o valor da informação é zero resultante de arredondamento de um dado numérico originalmente positivo; f) - 0 ou -0,0 indica que o valor da informação é zero resultante de arredondamento de um dado numérico originalmente negativo. 1.5.9 – CHAMADA OU SÍMBOLO REMISSIVO – Uma tabela deve ter chamada, inscrita em qualquer um de seus espaços, sempre que houver necessidade de se remeter alguns de seus elementos a uma nota especifica, ou seja, a uma informação complementar.Deve ser feita de cima para baixo, da esquerda para a direita, em ordem crescente e com algarismos arábicos com destaque (entre parênteses, entre colchetes). 1.5.10 – Fonte – Localizada logo no rodapé, é utilizada para identificar a origem ou os responsáveis pelas informações. Deve ser feita por extenso e precedida da palavra Fonte ou Fontes. 1.5.11 – NOTA GERAL – Localizada logo após a fonte, é utilizada sempre que houver necessidade de se esclarecer o conteúdo geral de uma tabela. Deve ser feita de forma clara e concisa se precedida da palavra Nota ou Notas. 1.5.12 – NOTA ESPECIFICA – Inscrita abaixo da nota geral, é usada sempre que houver necessidade de esclarecer um elemento especifico da tabela. Deve ser feita de forma clara e concisa e precedida de sua respectiva chamada. – NOTAS 1.6.1 – APRESENTAÇÃO DO TEMPO 1.6.2 – a) Toda série cronológica consecutiva deve ter o início do tempo, separado por um hífem. Exemplo 1990, 1991, 1992, 1993 = 1990 -1993. 1.6.3 – b) Toda série cronológica não consecutiva, deve ter o início e o fim do tempo, separados por uma barra. Exemplo 1990, 1991, 1992, 1993 = 1990 /1993. 1.6.4 – ARREDONDAMENTO DE DADOS NUMÉRICOS. 1.6.4.1 – Quando o primeiro algarismo a ser abandonado for 0, 1, 2,3 ou 4 o último algarismo a permanecer no dado numérico, fica inalterado. Exemplo: 5.2347, arredondando para duas casas decimais fica igual a 5,23. 1.6.4.2 – Quando o primeiro algarismo a ser abandonado for 5, 6, 7,8 ou 9, o último algarismo a permanecer no dado numérico, deve ser acrescido de uma unidade. Exemplo: 5.2347, arredondando para três casas decimais fica igual a 5,235. 1.7 – DIAGRAMA DE UMA TABELA. 1.7.1 – Toda tabela que ultrapassar a dimensão da página em número de linhas e tiver poucas colunas, podem ser apresentadas na mesma página, em duas ou mais partes, lado a lado, sendo as partes separadas por um traço vertical duplo, repetindo-se o cabeçalho. 1.7.2 – Toda tabela que ultrapassar a dimensão da página em número de colunas e tiver poucas linhas, pode ser apresentada, na mesma página em duas ou mais partes, uma abaixo da outra, repetindo-se a coluna indicadora. 1.7.3 – Toda vez que a tabela ultrapassar as dimensões da página, pode ser apresentada em várias páginas sendo que, continuada uma deve conter o topo e o cabeçalho da tabela com as seguintes indicações: continua para a primeira página, conclusão para a última página e continuação para as demais. Neste caso, o traço horizontal da moldura que indica o final da tabela (rodapé), deve ser apresentado somente na página que contenha a indicação conclusão. 1.8 – RECOMENDAÇÕES GERAIS a) Recomenda-se que uma tabela seja elaborada de forma a ser apresentada em uma única página. b) Recomenda-se que as tabelas de uma publicação apresentem uniformidade gráfica. Texto Resumo para a construção de uma tabela: Delimite a tabela, no alto e embaixo, por traços horizontais; Se existir mais de uma tabela no texto, numere-as; Escreva na tabela ostotais das linhas e das colunas, ou as médias, ou qualquer outro resultado que possa ajudar o leitor; Delimite o total por um traço horizontal; Podem ser feitos traços verticais no interior da tabela se isso trouxer maior clareza; Separe o cabeçalho do corpo da tabela por um traço horizontal; Se os dados não forem coletados por você, forneça a fonte, isto é, a entidade, o pesquisador ou os pesquisadores que forneceram os dados; Precisando dar definições e destacar dados diferenciados, faça notas no rodapé da tabela; Utilize letras maiúsculas apenas no inicio das palavras de uma linha ou uma coluna; Quando o dado não existir, faça um traço no lugar da tabela em que deveria estar. 1.9 – Organização e apresentação de Dados - É feita através de tabelas que designamos de séries estatísticas. 1.10 – SÉRIES ESTATÍSTICAS – Chamamos de série estatística a toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em função da época, do local ou da espécie. Conforme o critério de agrupamento, as séries classificam-se em: 1.10.1 – SÉRIE CRONOLÓGICA, EVOLUTIVA OU HISTÓRICA - É a série estatística em que todos os dados são observados segundo a época da ocorrência. ٭ Elemento variável: época (fator cronológico). ٭ Elementos fixos: local (fator geográfico). Fenômeno (fator específico). Exemplo: O diretor de vendas da companhia de seguros Vera Cruz deseja saber a evolução de suas vendas no período de 1970 a 1977. Vendas de Seguros da companhia Vera Cruz 1970 - 1977 Brasil _________________________________________________ Ano Vendas _________________________________________________ 2.181 3.948 5.462 7.550 10.009 11.728 18.873 29.076 _________________________________________________ Fonte: Departamento de marketing da Companhia 1.10.2 – Série Geográfica ou de localização - É a série estatística em que os dados são observados segundo a localidade de ocorrência. ٭ Elemento Variável - Local (fator geográfico). ٭ Elementos Fixos – Época (fator cronológico). Fenômeno (fator específico). Exemplo: Empresas que foram fiscalizadas no ano de 1973 pelo INAMPS. (tabela 3). INAMPS - Empresas fiscalizadas em 1973 ____________________________________ Regiões Empresas Fiscalizadas ____________________________________ Norte 7.495 Nordeste 107.783 Sudeste 281.202 Sul 53.661 Centro Oeste 15.776 ____________________________________ Fonte: Relatório Estatístico Mensal 1.10.3 – Série Especifica - É a série estatística em que os dados foram agrupados segundo a modalidade de ocorrência. ٭ Elemento Variável - Fenômeno (fator especificado) ٭ Elementos Fixos - Época (fator cronológico) Local (fator geográfico) Exemplo: Números de matriculados no terceiro grau por modalidade de área de ensino no Brasil. Matriculas no Ensino de Terceiro Grau Brasil - 1975 (ciclo básico) ________________________________________ Área de Ensino Matrículas ________________________________________ Ciências Biológicas 32.109 Ciências Exatas e tecnologia 65.949 Ciências Agrárias 2.419 Ciências Humanas 48.842 Letras 9.883 Artes 7.464 _________________________________________ Fonte: Serviço de Estatística da Educação e cultura 1.10.4 - Distribuição de Freqüências - É a série Estatística em que os dados estão agrupados com suas respectivas freqüências Absolutas. Exemplo: Quando a variável for do tipo discreta. Número de Acidentes por dia na Rodovia Fernão dias em Janeiro de 1977 _______________________________________________________________ Nº de Acidentes Número de por dia dias _______________________________________________________________ 10 07 04 05 03 02 ____________________________________________________________ Fonte: DNER Exemplo: quando a variável for do tipo contínua. Tabela 6. Altura dos alunos do curso de física em Agosto de 2002 ____________________________________________ Alturas (m) Número de Alunos 1,50 a 1,60 05 1,60 a 1,70 15 1,70 a 1,80 17 1,80 a 1,90 03 Fonte: Secretaria da Escola 1.10.5-REPRESENTAÇÃO GRÁFICA DAS SÉRIES - tem por objetivo dar uma idéia, a mais imediata possível, dos resultados obtidos, permitindo-se chegar a uma conclusão sobre a evolução do fenômeno em observação. Os principais tipos de gráficos são: Gráfico de coluna, barras, setores e curvas. 1.10.6 - Gráfico de Coluna – É a representação gráfica de uma série por meios de retângulos, dispostos verticalmente em colunas. Onde identifica as alterações dos dados ao longo de um período ou ilustra comparações entre os itens. As categorias são organizadas na horizontal e os valores na vertical, para enfatizar as variações ao longo do tempo. Exemplo: Número de veículos roubados no Carnaval no estado de São Paulo, segundo o ano. 1.10.7 - Gráfico de Barras – É a representação gráfica de uma série por meio de retângulos horizontais, dispostos horizontalmente. Ilustra comparações entre itens individuais. As categorias são organizadas na vertical e os valores na horizontal para enfocar valores de comparação e dar menos ênfase ao tempo. Observações: a) Quando as informações a serem inscritas são extensas, damos preferência ao gráfico de barras (séries geográficas e especificas). b) À distância entre as colunas (ou barras), por questões estéticas, não deverá ser menor que a metade nem maior que dois terços da largura dos retângulos. 1.10.8 - Gráfico de Setores - É a representação gráfica de uma série estatística, em um circulo, por meio de setores. É bastante utilizado quando se pretende comparar cada valor da série com o total. Para construí-lo, divide-se o circulo em setores, cujas áreas serão proporcionais aos valores da série. Essa divisão poderá ser obtida pela regra de três: O total está para 360°, assim como, a parte está para X°. Observações: a) O gráfico de setores só deve ser empregado quando há, no máximo, sete dados. b) Se a série apresenta os dados percentuais, podemos obter os respectivos valores em graus multiplicando o valor percentual por 3,6. Exemplo: Universidades de alunos de classe média alta em 2012. 1.10.9 - Gráfico de Curvas – É a representação gráfica de uma série estatística por meio dos eixos coordenados (abscissas e ordenadas). É usado freqüentemente para a comparação de valores em uma relação de tempo. Material de propriedade do professor Carlos Martins – UNICAP Capitulo II Métodos Tabulares e Gráficos 2.1 – INTRODUÇÃO No primeiro capítulo, mostramos as formas de apresentação dos dados numéricos, através das séries estatísticas. A vantagem das tabelas é a de condensar, de forma consistente, as informações necessárias ao estudo desejado. Neste capítulo será desenvolvido um tipo de tabela que condensa uma coleção de dados conforme as freqüências. Inicialmente, formalizaremos algumas definições fundamentais: 2.2 – VARIÁVEL - É um símbolo, representado por X, Y, Z que pode assumir qualquer valor de um conjunto de valores que lhe são atribuídos, conjunto este chamado de domínio da variável. 2.3 – Tipos de Variáveis. Podemos classificá-las em categóricas e quantitativas. VARIÁVEIS CATEGORICASAs variáveis categóricas podem ser do tipo nominal ou ordinal (caso exista uma ordem entre as classes). Exemplo sexo e estadiamento de uma doença. Também podem ter duas ou mais categorias dependem do interesse do estudo. Por exemplo, hábito de fumar (Fumante, não fumante, ex-fumante e fumante passivo). Observação (1): Frequentemente os dados são reduzidos a duas categorias para simplificar a analise e sua apresentação. VARIÁVEIS QUANTITATIVAS Classifica - se em discretas ou continuas. Discretas – quando a variável assume apenas valores pertencentes a um conjunto enumerável. Exemplos: Número de acidentes na Rodovia Fernão Dias em janeiro de 1977. Número de Bactérias em um volume de urina. Numero de consultas médicas durante um mês. Continuas – quando a variável assume qualquer valor num certo intervalo de variação. Exemplos: Idades de indivíduos residentes em uma cidade. Pressão sangüínea da população residente na cidade do Recife. Observação (2): À importância dessa classificação justifica-se porque cada tipo de variável requer um tratamento estatístico especifico. 2.4 – Organização e apresentação de dados Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o comportamento desta variável, analisando a ocorrência de suas possíveis realizações. Nesta seção veremos uma maneira de se dispor um conjunto de realizações, para se ter uma idéia global sobre elas, ou seja, sua distribuição. Antes, porém, precisamos conceituar distribuição de freqüência. 2.4.1 – Distribuição de Freqüência – É o arranjo tabular dos dados por classes, juntamente com as respectivas freqüências. 2.4.2 – Dados Brutos – É o conjunto de dados numéricos que não foram ordenados de forma crescente ou decrescente. Exemplo: As alturas em (cm) de 40 alunos da Unicap são: 150,151,151,153,154,154,155,156,156,156,157,157,157,158,158 159,159,159,160,160,161,161,161,161,162,162, 165,...,173. 2.4.3 – ROL – É o arranjo dos dados numéricos brutos em ordem de grandeza. Exemplo: Com base nos dados do exemplo anterior, temos: 150,151,151,153,154,154,155,156,156,156,157,157,157,158,158 159,159,159,160,160,161,161,161,161,162,162, 165,...,173. 2.4.4 – Amplitude total dos Dados – É a diferença entre o maior e o menor valor observado. Representa-se por At = maior - menor valor observado. Fazendo uso do exemplo anterior, temos: At = 173 – 150 = 23. 2.4.5 – Amplitude total da distribuição – É obtida pela diferença entre o limite superior da última classe e o limite inferior da primeira classe. Representa-se por: Atd = Lsup – inf (das classes).Exemplo: Com os dados dos 40 alunos fornecidos anteriormente, podemos construir a distribuição. Estaturas (cm). Freqüências (fi) 150 a 154 04 154 a 158 09 158 a 162 11 162 a 166 08 166 a 170 05 Assim, Atd = 174 – 150 = 24. 170 a 174 03 Concluindo-se que, Atd # At Total 40 2.4.6 – Amplitude de Classe – É obtida pela diferenças entre os limites reais superior e inferior dessa classe. Representa-se por: hi = Lsup – Linf. Observando a tabela (2.1), temos para i = 3; h3 = 162 – 158 = 4cm. 2.4.7 – Amplitude do intervalo de classe - É obtida pelo quociente entre a amplitude total da série e o número de classes. Representa-se por hi = At / k 2.4.8 – Limites das Classes – Chamamos de limites das classes os extremos de cada classe. Representa-se por Lsup e Linf respectivamente. 2.4.9 – Intervalos de Classe - Existe diversas maneira de expressar os limites das classes. Eis algumas: a) Aberto à direita e fechado a esquerda b) Aberto à esquerda e fechado a direita c) Fechado à direita e a esquerda d) Aberto em ambos dos lados. 2.4.10 – Freqüência Absoluta - É o número de vezes que o elemento aparece na amostra, ou o número de elementos pertencentes a uma classe. Representa-se por: fi . Assim, em nosso exemplo, temos que, para i = 3, f3 = 11 observações. 2.4.11 – Ponto médio de uma classe – É obtido pela semi-soma dos limites inferior e superior da mesma classe. Denomina-se de representante da classe se é representado por xi. Exemplo: Usando os dados da tabela 2.1, calcule o ponto médio para a terceira classe. Solução: X3 = 158 + 162 / 2 = 160 2.4.12 – Freqüência Relativa – É obtida pela razão entre a freqüência absoluta e o somatório das freqüências absolutas. Representa-se por fri = fi / ∑ fi. Note que ∑ fi = n. logo, fri = ( fi /n. Assim, no nosso exemplo, para i=1, fr1 =4/40= 0,10 ou 10% das alturas. 2.4.13 – Freqüências Acumuladas “Abaixo de” – É obtida pelo somatório das freqüências absolutas. Representa-se por fac. Exemplo: Seja a distribuição abaixo: Xi fi fac. 0 3 3 1 5 8 2 2 10 Total 10 ٭ Observação: Freqüência absoluta “Acima de” é o inverso da “abaixo de” 2.4.14 – Freqüência Relativa Acumulada – É obtida pelo somatório das freqüências relativas dessa classe ou das classes anteriores. Representa-se por fra. Exemplo: Seja a distribuição abaixo Xi fi fri fra 0 6 06/34 0,18 1 10 10/34 0,47 2 18 18/34 1,00 Total 34 2.4.15 – Roteiro Para a elaboração de uma tabela de Freqüências de dados simples ou agrupados em classes. a) Listar os dados brutos que foram transformados em rol. b) Encontrar a amplitude total (At) do conjunto de valores observados. c) Escolher o número de classes (k). Alguns autores propõem que se escolha arbitrariamente entre um mínimo de cinco e o máximo de vinte classes. Não há uma formula exata para o cálculo do número de classes, entretanto, apresentaremos duas soluções: I) Para n ≤ 25 , K = 5 classes ou k ≈ √ n , para n > 25 observações. II) Formula de Sturges que é dada por k ≈ 1 + 3,22 log n. d)Determinar os limites das classes, escolhendo-se preferencialmente, números inteiros se possível, caso contrário, será o comportamento da variável. Exercícios: 1) Uma amostra de 60 estudantes, que completaram um curso em estatísticas de negócios durante o primeiro semestre de 1988, forneceu as seguintes respostas. Para auxiliar o processamento dos resultados via computador foi usada uma escala numérica em que 1 = fraco, 2 = regular, 3 = bom, 4 = ótimo, 5 = excelente. 3 4 4 5 1 5 3 4 5 2 4 5 3 4 4 4 5 5 4 1 4 5 4 2 5 4 2 4 4 4 5 5 3 4 5 5 2 4 3 4 5 4 3 5 4 4 3 5 4 5 4 3 5 3 4 4 3 5 3 3 a) Os dados são qualitativos ou quantitativos? b) Construa a distribuição de freqüência dos dados c) Com base na distribuição, comente a avaliação global do curso feita pelos estudantes. 2) As Notas de 32 estudantes de uma classe estão descritas a seguir: 6,0 0,0 2,0 6,5 5,0 3,5 4,0 7,0 8,0 7,0 8,5 6,0 4,5 0,0 6,5 6,0 2,0 5,0 5,5 5,0 7,0 1,5 5,0 5,0 4,0 4,5 4,0 1,0 5,5 3,5 2,5 4,5 Pede-se: Construir a distribuição de freqüência. 3) O serviço de Recursos Humanos da Roth Young relatou que os salários anuais para os gerentes de lojas de departamento variam de US$20.000 a US$57.000 em 16 de outubro de l994. Assuma que os seguintes dados são uma amostra dos salários anuais de 40 gerentes de lojas de departamento (os dados estão em mil dólares) 48 35 57 48 52 56 51 44 40 40 50 31 52 37 51 41 47 45 46 42 53 43 44 39 50 50 44 49 45 45 50 42 52 55 46 54 45 45 50 42 a) Quais foram os salários mais altos e os mais baixos relatados? b) Faça a distribuição dos salários, para isso, use uma amplitude de classe de US$ 4.000 com limites fechados á direita e à esquerda. c) Que proporção dos salários anuais é de US$ 35.000 ou menos. d) Que percentagem de salários anuais é maior que US$ 50.000? e) Prepare um histograma dos dados. 2.4.16 – Gráfico Representativo da Distribuição de Freqüências – O gráfico utilizado para representar uma distribuição de freqüência é o histograma. O histograma é um gráfico tipicamente de análise. A representação das freqüências simples é feita através do histogramaou polígono de freqüência, enquanto que as freqüências acumuladas são representadas pelas ogivas de Galton. 2.417 – Histograma – É um gráfico formado por um conjunto de retângulos justapostos, de forma que a área de cada retângulo seja proporcional à freqüência da classe que ele representa. Exemplo: Framingham é uma pequena cidade americana perto de Boston, Massachusetts. Em1948 foi selecionada como local adequado para desenvolvimento de um estudo prospectivo cujo objetivo era verificar como os hábitos de vida das pessoas influenciam o desenvolvimento de doença cardíaca. Para isto foi feito um controle sobre o nível de colesterol com 77 pessoas. Framingham, distribuição do nível de Colesterol – 1948. Nível de colesterol Freqüência absoluta 100 a 150 2 150 a 200 24 200 a 250 35 250 a 300 14 300 a 350 1 350 a 400 1 Fonte: IBGE. 77 Polígono de Frequência – É um gráfico de linha que é obtido unindo-se por linhas retas os pontos médios das bases superiores do histograma. A apresentação de Caule-e-folha – É ainda amplamente utilizada para mostrar simultaneamente tanto a ordem da classificação como a forma do conjunto de dados. Não existe uma regra fixa para construir uma apresentação de caule-e-folha, mas a idéia básica é dividir cada observação em duas partes: a primeira (caule) é colocada à esquerda de uma linha vertical, a segunda (a folha) é alocada à direita. Exemplo1: Considere os seguintes dados 72, 68, 97, 73, 76, 86,73. O arranjo é feito da seguinte forma: 6 8 7 2 3 6 3 8 6 9 7 Para obtermos a representação de caule e folha, vamos girar a página em 90 graus no sentido anti-horário, obtendo-se uma figura dos dados. Exemplo 2: Os dados abaixo se referem à dureza de 30 peças de alumínio. 53,0 70,2 84,3 69,5 77,8 87,5 53,4 82,5 67,3 54,1 70,5 71,4 95,4 51,1 74,4 55,7 63,5 85,8 53,5 64,3 82,7 78,5 55,7 69,1 72,3 59,5 55,3 73,0 52,4 50,7 Observação: optamos por truncar cada valor, omitindo os décimos, de modo que 69,1 e 69,5 por ex., tornam-se 69 e 69 e aparecem como 9 na linha que corresponde ao ramo 6 5 0 1 2 3 3 3 4 5 5 5 9 6 3 4 7 9 9 7 0 0 1 2 3 4 7 8 8 2 2 4 5 7 5 Este é um exemplo em que temos muitas folhas em cada ramo. As Formas das Curvas de Freqüência – As curvas de freqüências assumem as seguintes características: a) Simétrica (em forma de sino) b) Assimétrica (positiva ou negativa). c) Curva em forma de J ou J invertido. d) Curva Bimodal. e) Curva trimodal. Material de propriedade do professor Carlos Martins – UNICAP Capítulo III Métodos Numéricos No capítulo II, discutimos os métodos tabulares e gráficos para sintetizar os dados. Neste capítulo, apresentamos diversos métodos numéricos de estatística descritiva que fornecem alternativas adicionais para sintetizar os dados. Começamos a considerar os conjuntos de dados que consistem de uma variável simples, e que os dados tenham sido obtidos a partir de uma amostra de n elementos. As medidas numéricas são calculadas usando-se as n observações. Diversas medidas numéricas de posição, dispersão e associação são introduzidas. Se as medidas são calculadas para dados a partir de uma amostra, elas são chamadas de estatística de amostra. Se for a partir de uma população, elas são chamadas de parâmetros de população. 3.1 – Medidas de Posição – Vimos no capítulo anterior que resumindo os dados por meio de tabelas de freqüências e ramos-e-folhas fornecem muito mais informações sobre o comportamento de uma variável do que a própria tabela original de dados. Muitas vezes, queremos resumir ainda mais estes dados, apresentando um ou alguns valores que sejam representativos da série toda. Nestes casos normalmente emprega-se uma das medidas de posição. MÉDIA – A média é um valor típico ou representativo de um conjunto de dados. Se os dados são de uma amostra, a média e denotada por x; se os dados são de uma população, a média é denotada pela letra grega µ. Vamos formalizar os conceitos introduzidos acima. Se x1,..., xn são os n valores (distintos ou não)da variável X, a média aritmética pode ser escrita. = x1 + x2 + ......+ xn / n = 1/n (3.1) Agora, se tivermos n observações da variável X, das quais n1 são iguais a x1, n2 iguais a x2 etc.., nk iguais a xk , então a média pode ser escrita = n1x1 + n2x2 + .....+ nkxk / n = 1/n (3.2) Se fi = ni / n representar a freqüência relativa da observação xi, então (3.2) pode ser escrita. = 1/n (3.3) Para ilustrar o cálculo da média da amostra, vamos considerar os seguintes dados de tamanho de classe para uma amostra de cinco classes de faculdade. 46, 54, 42, 46, 32, Usando a notação x1, x2, x3, x4, x5 para o número de estudantes em cada uma das cinco classes. x1 = 46 ; x2 = 54 ; ....... ; x5 = 32 utilizando a equação (3.1) vem, _ X = 46 + 54 + 42 + 46 +32 / 5 = 44 Conclusão: O tamanho médio das classes da amostra é de 44 alunos. Agora, quando os dados estão agrupados em classes, temos: Xi 1 2 3 4 fi 1 3 5 1 substituindo na equação (3.3)vem, _ X = 1.1 + 2.3 + 3.5 + 4.1 / 1 + 3 + 5 + 1 = 26 / 10 = 2,6 A equação (3.1) mostra como a média é calculada para uma amostra com n observações. A fórmula para calcular a média de uma população é a mesma, mas usaremos uma notação diferente para indicar que estamos trabalhando com a população inteira. O número de observações em uma população é denotado por N e o símbolo para a média da população é µ. Então µ = ( xi / N (3.4) Processo Abreviado para o cálculo da média – Este procedimento é particularmente útil de ser aplicado quando os valores de X forem grandes e a amplitude entre tais valores for constante. O processo oferece rapidez e facilidade nos cálculos. Para isso é preciso seguir os passos: 1° passo – Efetua-se a mudança da variável de X para Z, utilizando-se a seguinte fórmula: Zi = xi – xo / h (3.5) Onde: Xi = Valores da variável Xo = constante arbitrária tomada convenientemente H = intervalo de classe Zi = valores transformados Considere o seguinte exemplo: dada a distribuição abaixo. xi 17 19 21 23 25 _________________________ fi 8 12 15 7 5 Escolhe-se xo = 21, então z i = xi – 21 / 2 substituindo os valores de xi obtemos os zi correspondentes. Xi fi zi z i.f i 17 8 -2 - 16 19 12 -1 - 12 21 15 0 0 23 7 1 7 25 5 2 10 ( 47 0 - 11 2º Passo: Para o calculo da média ( ) utiliza-se à fórmula. _ _ X = h z + x0 (3.6) Onde H = intervalo já utilizado X0 = constante escolhida Z = ( zi fi / n = - 11 / 47 ( - 0,23 logo, a média será: _ X = 2(-0,23) + 21 = 20,54 Algumas Propriedades da média Aritmética _ a) A soma dos desvios em torno da média é zero. ( (xi - x ) = 0 b) Somando ou subtraindo a mesma quantidade arbitrária de todos os valores da série, a média ficará aumentada ou diminuída dessa mesma quantidade. Sugestão: Utilize a quantidade arbitrária 2. Calcule a média da série, em seguida some o 2 a todos os valores. Determine a média desses novos valores e compare as duas médias obtidas. c) Multiplicando ou dividindo cada termo de uma série por uma constante, a média ficará multiplicada ou dividida pela constante. Sugestão: utilize a mesmada propriedade b. d) A soma dos quadrados dos desvios em relação á média é um mínimo, ou seja, é sempre menor que a soma dos quadrados dos desvios em relação a outro valor qualquer. Isto é, ((xi – x)2 < ((xi –A)2 MEDIANA – É outra medida de posição central de uma variável. A mediana se localiza no centro da seqüência (distribuição) quando os dados são arranjados na ordem ascendente. Consideremos agora, as observações em ordem ascendente. Vamos denotar a menor observação por x1 , a segunda por x2 e assim por diante, obtendo-se X1 = x2 = ,............, = xn-1 = xn. (3.7) As observações ordenadas como em (3.7) são chamadas estatística de ordem. Com esta notação, a mediana da variável x pode ser definida Se o número de observações for impar, o valor mediano será localizado através do elemento: Me(x) = x(n + 1) / 2 (3.8) Se o número de observações for par, o valor mediano será localizado através dos elementos: Me(x) = x(n / 2) + x( n / 2 + 1) (3.9) Exemplo: Considere a série: 5 , 7, 8, 10, 14 (número impar de observações). Então, Me(x) = X(5 + 1) /2 = 3º elemento da série, logo Me = 8 . Para a série: 5, 7, 8, 10, 14 e 20 (número par de observações) Então, Me(x) = X(n / 2) + (n + 1) / 2 = 3 e 4º elementos, ou seja, o valor mediano será obtido pela semi-soma deles 8 + 10 / 2 = 9 Logo, Me(x) = 9. Agora, quando os dados forem discretos e localizados numa distribuição conforme exemplo abaixo, a maneira de encontrar o valor mediano é o seguinte. Xi fi fac 1 1 1 2 3 4 3 5 9 4 2 1 1 ∑ 11 Primeiramente, faremos e somatório das freqüências e verificamos que n = 11 então n é impar, utilizando a equação (3.8) vem: X(11 + 1)/2 = X(6) = 6° elemento, logo, o valor mediano é: Me = 3. Exemplo 2 - tomemos os dados dos salários mensais iniciais para uma amostra de 7 graduados de escola de Administração Graduado salário mensal (us$) 1 2.350, 2 2.450, 3 2.550, 4 2.380, 5 2.255, 6 2.210, 7 2.390, Como o número de observações é impar, então o valor da mediana é X(n + 1) / 2 = 7 + 1 / 2 = 4° elemento. Colocando em ordem ascendente o valor mediano será 2.380, _ Quando a variável for continua, o cálculo da mediana é feito observando a seguinte fórmula. Me = linf + ( n / 2 - (fi ) h / fme (3.9) Onde: Linf = limite inferior da classe que contém a mediana N = número de observações (fi = somatório de todas às freqüência anteriores à classe mediana h = amplitude da classe mediana fme = freqüência da classe mediana Para ilustrar, considere a renda familiar em milhares de dólares de 40 famílias. Renda Familiar (us$) 2 a 4 4 a 6 6 a 8 8 a 10 10 a 12 ________________________________________________ Nº de famílias 05 10 14 08 03 Agora, fazendo uso da equação (3.9), temos: N / 2 = 40 / 2 = 20 indicando que o valor mediano encontra-se na terceira classe da distribuição. Então Me = 6 + ( 40 / 2 – 15).2 / 14 Me = 6,72. Podemos afirmar que a renda mediana das (quarentas) famílias é de us$ 6,72 dólares. Observação: A mediana é a medida de posição mais freqüentemente usada para o cálculo da renda anual e para dados de valores de bens, porque, algumas rendas ou valores de bens são extremamente elevados de modo a inflacionar a média. Em tais casos, a mediana reflete melhor o valor central. COMENTÁRIO É sempre melhor usar a mediana do que a média como medida de posição central quando um conjunto de dados contém valores extremos. Uma outra medida, algumas vezes usada quando valores extremos estão presentes, é a média ajustada. Ela é obtida suprimindo-se as observações menores e maiores de um conjunto de dados e então calculando - se a média dos valores restantes. Por exemplo, a média ajustada de 5% poderia ser obtida removendo-se os 5% menores e os 5% dos maiores valores de dados e então se recalcula a média dos valores restantes. Suponha que tenhamos uma amostra de n =15 alturas dos alunos da classe, 0,05(15) = 0,75. Arredondando-se esse valor para 1 indica que a média ajustada de 5% removeria 2 valores, um menor e um maior. Assim, a média ajustada utilizaria só 13 observações. MODA – É a terceira medida de posição. Definimos como sendo o valor de dados que ocorre com maior freqüência. Quando a distribuições de dados for simples (sem agrupamento em classe), a identificação da moda é facilitada pela simples observação do elemento que representa maior freqüência. Assim, para a distribuição. Xi 2 4 6 8 10 fi 7 17 23 20 8 a moda será 6 indica – se Mo = 6. Podem surgir situações em que a maior freqüência ocorra em dois ou mais valores diferentes. Nestes casos, existe mais de uma moda. Se os dados têm exatamente duas modas, dizemos que são bimodais. Considere a seguinte distribuição dos dados. Xi 2 4 6 8 10 fi 2 5 4 5 3 Então a moda será 4 e 8. indica-se: Mo = 4, Mo = 8 Então chamamos de distribuição bimodal. Quando os dados da distribuição forem agrupados em classes, temos duas fórmulas para o cálculo da moda. 1° Fórmula de Czeber Moc = linf + (fmo – fant )h / 2fmo – (fant + fpost) (3.10) Onde: Linf = limite inferior da classe que contém a moda Fmo = freqüência absoluta da classe que contém a moda Fant = freqüência absoluta da classe anterior à classe modal H = amplitude da classe que contém a moda Fpost = freqüência absoluta da classe posterior a modal Exemplo: Determinar a moda para a distribuição abaixo Classes fi 0 a 1 03 1 a 2 10 2 a 3 17 3 a 4 08 4 a 5 05 ( 43 Mo = 2 + (17 – 10) 1 / 34 – (10 + 8) Mo = 2,44 2° Fórmula de King Mok = linf + (fpost) h / (fant + fpost) (3.11) Utilizando o mesmo exercício anterior, a moda será 2,44. Conclusão: Moc ( Mok RELAÇÃO ENTRE MÉDIA, MEDIANA E MODA. Em uma distribuição simetria = Me = Mo Em uma distribuição assimétrica positiva > Me >Mo. Em uma distribuição assimétrica negativa < Me < Mo. SEPARATRIZES – São medidas que nos auxiliam na análise de um conjunto de dados, principalmente, quando queremos detalhar mais a informação que é fornecida pela média e a mediana. QUARTIS – É a separatriz que divide o conjunto de dados em quatro partes iguais. Assim, Q1 = 1º quartil, deixa 25% dos elementos. Q2 = 2º quartil, deixa 50% dos elementos e é igual a mediana Q3 = 3º quartil, deixa 75% dos elementos. Para calcularmos o quartil de um conjunto de dados agrupados em classe, a fórmula para a determinação é semelhante a da mediana, ou seja, Qi = linf + ( i. n / 4 - ∑ fi )h / fqi Onde: Linf = limite inferior da classe que contém o quartil. i = a ordem do quartil. N = número de observações ∑ fi = somatório das freqüências anteriores a classe do quartil. fqi = freqüência absoluta da classe que contém o quartil Ex: A tabela abaixo representa os salários pagos a 100 operários da empresa GTL. Nº de salários nº de operários Mínimos fi 0 a 2 40 2 a 4 30 4 a 6 10 6 a 8 15 8 a 10 05 Determinar o 3º quartil da distribuição dos salários. Resolução: Para localizar a classe que se encontra o terceiro quartil, basta usar o operador 3n / 4, ou seja, 3.100/4 = 75 (septuagésimo quinto elemento) que se encontra na terceira classe, logo o limite inferior é 4, substituindo na formula temos: Q3 = 4 + (75 – 70) 2 / 10 = 5 salários mínimos Logo, 75% dos operários ganham 5 salários mínimos ou menos Observação: Os quartis são percentis específicos: assim, as etapas para calcular os percentis podem ser aplicadas diretamente no cálculo dos quartis. Então quando queremos calcular os quartis usandoos percentis é preciso recorrer ao seguinte procedimento: Etapa 1: Arranje os dados na ordem ascendente Etapa 2: Calcule um índice i i = (p / 100)n (3.12) Onde, p é o percentil de interesse e n e o número de observações. Etapa 3: (a) se não for um inteiro,arredonde para cima. O próximo inteiro maior que i denota a posição do p-ésimo percentil. (b) se i é um inteiro, o p-ésimo percentil é a média dos valores dados nas posições i e i +1. Como ilustração desse procedimento, vamos determinar o1º e 3º quartis para os 12 salários mensais iniciais em dólares da Escola de Administração, conforme segue: 2.255, 2.350, 2.210, 2.380, 2.390, 2.380, 2.420, 2.450, 2.440, 2.550, 2.630, 2.825. Etapa 1: Os dados na ordem ascendente são: 2.210, 2.225, 2.230, 2.380, 2.380, 2.390, 2.420, 2.440, 2.450, 2.550, 2.630, 2.850. Etapa 2: i = (25/100)12 = 3 Etapa 3: Como i é um inteiro, a etapa 3(b) indica que o primeiro quartil será a média do terceiro e do quarto valores de dados. Assim, Q1 = 2.350 + 2.380 / 2 = 2.365 dólares Suponha agora, que a amostra do exemplo anterior fosse composta de apenas onze graduados e queremos calcular o primeiro quartil. Usando o procedimento anterior temos: Etapa 1: já feita no exemplo anterior Etapa 2: i = (25 / 100)11 = 2,75 Etapa 3: como i não é um inteiro, arredonde para cima. A posição do 25ª percentil é o próximo inteiro maior do que 2,75,ou seja, a 3ª posição. Retornando aos dados, vemos que o valor na 3ª posição é 2.350. Decil – É a separatriz que divide a distribuição em 10 partes iguais, ou seja, 10%, 20%,30% ,...........,100%. Semelhantemente, ao quartil a fórmula do decil é representada por: Di = linf + ( in / 10 - ∑ fi ) h / fdi (3.13) Utilizando os dados do problema anterior, calcule o 2º decil. Assim, D2 = 0 + ( 2. 100 / 10 - 0 ) 2 / 40 = 1 salário mínimo ou menos. Percentil ou Centil – É a separatriz que divide a distribuição em 100 partes iguais, ou seja, de 1%, 2% , ..., 100% . Para determiná-lo Pode-se usar a equação (3.12) ou a formula: Pi = linf + (in / 100 - ∑ fi ) h / fpi (3.14) Observação: A forma de cálculo para o percentil é igual ao decil ou quartil. 3.2- MEDIDAS DE VARIABILIDADE – Além das mediadas de posição, freqüentemente é desejável considerar as medidas de variabilidade ou de dispersão. Amplitude total – talvez seja a mais simples de ser calculada. Embora a amplitude seja a medida de variabilidade mais fácil de calcular, raramente é usada isoladamente como única medida. A razão é a que está baseada somente em duas observações e, portanto, é altamente influenciada pelos valores extremos. Representa-se por: At = maior – menor valor observado. (3.15) Exemplo: para a série 10, 12, 20, 22, 25, 33, 38. At = 38 – 10 = 28 DESVIO MÉDIO – É a medida de dispersão ou o grau de concentração dos valores em torno da média. Quando estamos calculando o desvio médio estamos medindo a dispersão entre cada xi e a média x,ou seja,di = xi - x . Como o ∑di = 0, tomaremos o somatório dos desvios em modulo. Assim, representamos o desvio médio para dados simples. Dm = ∑ xi - / n (3.16) Se os dados estiverem agrupados ou ponderados, a fórmula do desvio médio toma o seguinte aspecto: __ Dm = ∑ xi - x fi / n (3.17) Interpretação do Desvio padrão – O desvio padrão não tem uma interpretação física, como ocorre com a média, mediana, moda e os quartis. Contudo, é possível interpretá-lo de forma analítica. Consideremos, por exemplo, que dois estudantes tenham obtido os seguintes resultados em 5 provas de física. Estudante A: 4 5 6 7 8 Estudante B: 2 4 6 8 10 Calculando a média dos estudantes elas são iguais a seis. Entretanto, a variação das notas em torno das respectivas médias difere do aluno A para o aluno B, este último apresentando maior dispersão. O desvio-padrão das notas permite comprovar o que foi dito. DESVIO PADRÃO – É a medida de dispersão mais usada.É definido como sendo a raiz quadrada positiva da variância seguindo a mesma notação para a variância da amostra e da população, usamos s e σ respectivamente. Quando se tratar de (dados simples) o desvio padrão de um conjunto de n números x1,........, xn é representado por: S = - 1 = -1 onde, di = ( xi – ) (3.18) Se desenvolvermos o numerador da expressão sob o radical, chegaremos à fórmula desenvolvida do desvio padrão. S = (3.19) Ex., Calcular o desvio padrão do conjunto A = (10,12,13,20) X = 13,75 ∑ xi2 = 813 resolvendo temos: s = 4,34 Quando se tratar de (dados agrupados) o desvio padrão de um conjunto de n números x1,......., xn com respectivas freqüências f1 ,....,fn é representado por: S = = (3.20) Observação: Quando os dados estiverem agrupados em classes ou com o número de freqüência, é só acrescentar na formula (3.18) o fi . PROPRIEDADES DO DESVIO PADRÃO 1- Somando ou subtraindo um valor constante e arbitrário, x0, a cada elemento de um conjunto de números, o desvio - padrão não se altera. Fazendo uso da equação (3.18) vem: S = √ ∑ [(xi +x0) – ( + x0 )]2 / n - 1 2 – Multiplicando ou dividindo por um valor constante e arbitrário c cada elemento do conjunto de números, o desvio-padrão fica multiplicado ou dividido pela constante. 3 – O desvio padrão é maior que o desvio médio VARIÂNCIA – A variância é a medida de variabilidade que utiliza todos os dados. É obtida pela diferença entre xi e a média, elevando-se ao quadrado e o resultado dividido por n - 1. Representa-se por s2 quando se tratar de amostra s2 = ∑ (xi - x )2 / n-1 (3.21) - Quando se tratar da população, a variância é dada por: σ2 = ( xi - µ )2 / N (3.22) Utilizam-se as mesmas fórmulas, acrescentando fi quando os dados estiverem com freqüência ou agrupados PROPRIEDADES DA VARIÂNCIA Observação: A Primeira e as segundas propriedades são iguais ao do Desvio padrão. COEFICIENTE DE VARIAÇÃO DE PEARSON – É uma medida relativa de variabilidade que mede o desvio padrão em relação à média. O coeficiente de variação de Pearson é obtido pela relação do quociente entre o desvio padrão e a média aritmética. Representa-se por Cv. Cv = desvio padrão / média x 100. (3.23) Ex:. Numa empresa, o salário médio dos homens é de US$ 4000, com desvio-padrão deUSs$ 1500, e o das mulheres é em média de US$ 3000, com desvio-padrão de US$ 1200,.Calcule qual dos salários apresentam maior dispersão? Solução: Cvh = 1500 / 4000 = 0,375 x 100 = 37,5% Cvm = 1200 / 3000 = 0,400 x 100 = 40% Logo, podemos concluir que os salários das mulheres apresentam maior dispersão relativa que os dos homens. Na prática, quando o Cv for superior a 50% é um indicativo de alto grau de dispersão e, como conseqüência pouca representatividade da média. Portanto, a medida deve ser abandonada. Por outro lado, quanto menor for o Cv maior representatividade da média. MEDIDAS DE ASSIMETRIA E CURTOSE – As medidas de assimetria e curtose são as que faltam para completarmos o quadro das estatísticas descritivas, que promovem a compreensão completa da distribuição de freqüências estudadas. As características mais importantes dessas medidas são o grau de deformação ou assimetria e o grau achatamento ou afilamento da curva de freqüência. ASSIMETRIA – SIGNIFICA DESVIO OU AFASTAMENTO DA SIMETRIA OU O GRAU DE DEFORMAÇÃO DE UMA CURVA DE FREQUENCIA. Quanto ao grau de assimetria, podemos ter três tipos de curvas de freqüência: Curva Simétrica, assimétrica à direita e assimétricaà esquerda, já estudadas anteriormente. 1º COEFICIENTE DE ASSIMETRIA DE PEARSON – É dado pela fórmula Cap1 = (media – moda) / (desvio-padrão). (3.24) 2º COEFICIENTE DE ASSIMETRIA DE PEARSON – É dado pela fórmula Cap2 = 3 (média – mediana) / (desvio-padrão). (3.25) Quando: Cap1 ou Cap2 = 0 a distribuição é simétrica Cap1 ou Cap2 > 0 a distribuição é assimétrica à direita Cap1 ou Cap2 < 0 a distribuição é assimétrica à esquerda Observação: quando se tratar de população o desvio-padrão será trocado por sigma. CURTOSE - A curtose ou excesso indica até que ponto a curva de freqüência de uma distribuição se apresenta mais afilada ou mais achatada do que uma curva - padrão, denominada de curva normal. De acordo com o grau de curtose podemos ter três tipos de curvas de freqüência: a) Curva ou distribuição de freqüências mesocúrtica. b) Curva ou distribuição de freqüências platicúrtica. c) Curva ou distribuição de freqüências leptocúrtica. COEFICIENTE PERCENTILICO DE CURTOSE - É a medida mais elementar usada para avaliar o grau de curtose de uma distribuição ou curva de freqüências. É definido pela seguinte expressão: K = [ (Q3 – Q1) / (P90 – P10) 2 ] (3.26) Quando: K = 0,263 a curva ou distribuição é mesocúrtica K > 0,263 a curva ou distribuição é platicúrtica. K < 0,263 a curva ou distribuição é leptocúrtica. 2.5 – AMOSTRAGEM Voltamos a falar do que havíamos dito no início do curso sobre a forma de como iríamos escolher uma parte da população.Quando se deseja colher informações sobre um ou mais aspectos de um grupo grande ou numeroso, verifica-se muitas vezes, ser praticamente impossível fazer um levantamento do todo. Daí a necessidade de investigar apenas uma parte dessa população ou universo. O problema da amostragem é, portanto, escolher uma parte (ou amostra), de tal forma que ela seja mais representativa possível do todo e, a partir dos resultados obtidos, poder inferir para o total da população. 2.5.1 – TIPOS DE AMOSTRAGEM - A amostragem pode ser probabilística e não probabilística. ( Probabilísticas: amostragem aleatória simples, estratificada e sistemática. ( Não probabilísticas: amostragem de julgamento, por cota e fatia. A amostragem probabilística é o processo de seleção de uma amostra no qual cada unidade a se amostrar da população tem probabilidade diferente de zero e conhecida de pertencer à amostra. Estão enquadrados nestes casos; a amostragem aleatória simples, estratificada e sistemática. Na amostragem não probabilística, a probabilidade de seleção é desconhecida para alguns ou todos os elementos da população, a escolha é deliberada podendo alguns destes elementos ter probabilidade nula de pertencer à amostra, como por exemplo, em amostras intencionais, a esmo ou de voluntários. 2.5.2 – AMOSTRAGEM CASUAL SIMPLES - Este tipo de amostragem é equivalente a um sorteio lotérico. Na prática, é realizada numerando-se a população de 1 a n e sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer. Exemplo: Obter uma amostra representativa de seis elementos para a pesquisa da estatura de sessenta alunos de psicologia da sala 505: 1) Numeramos os alunos de 01 a 60. 2) Colocamos dentro de uma caixa todas as fichas numeradas. Agitando sempre a caixa, para misturar bem, em seguida, retiramos, uma a uma as seis fichas com reposição. Quando o número de elementos da amostra for muito grande posso utilizar também uma tabela de números aleatórios. 2.5.3 – AMOSTRAGEM ESTRATIFICADA - Muitas vezes a população se divide em subpopulações que chamamos de estratos. Como a variável em estudo no estrato apresenta-se homogênea e de estrato para estrato heterogênea, convém que o sorteio dos elementos leve em consideração tais estratos. Exemplo: Suponha, no exemplo anterior que, dos sessenta alunos, 54 sejam meninas e 6 sejam meninos, vamos obter a amostra proporcional estratificada. Sexo População % Amostra F 54 5,4 5 M 6 0,6 1 Total 60 6,0 6 2.5.4 – AMOSTRAGEM SISTEMÁTICA - A amostragem sistemática é muito usada quando os elementos da população se acham ordenados. São exemplos os prontuários médicos de um hospital, lista de presença de alunos da universidade, etc. Nestes casos, a seleção dos elementos que formarão à amostra pode ser feita por um sistema imposto pelo pesquisador. Exemplo: Suponha que a rua do Príncipe tenha novecentos prédios, e que a prefeitura deseja obter uma amostra de cinqüenta prédios para revisar o cadastro. A prefeitura usará o seguinte procedimento: dividirá 900/50 = 18, e escolherá por sorteio aleatório um número de 1 a 18 inclusive, o qual indicaria o primeiro elemento sorteado para a amostra; os demais elementos seriam periodicamente considerados de 18 em 18. Assim, se o número sorteado fosse o 7, tomaríamos , pelo lado direito da rua, o 7 º prédio, o 25º, 43º etc., até voltarmos ao início da rua, pelo lado esquerdo. Material de propriedade do professor Carlos Martins – UNICAP _1248189170.unknown _1248189486.unknown _1390738989.xls Gráf1 1443 1996 1344 1997 1815 1998 2421 1999 Número de veiculos roubados no Canaval no estado de São Paulo,segundo o ano Frequência Número de veículos roubados no Carnaval no estado de São Paulo Plan1 Número de veiculos roubados no Canaval no estado de São Paulo,segundo o ano ano Frequencia 1996 1443 1997 1344 1998 1815 1999 2421 Plan1 0 0 0 0 0 0 0 0 Número de veiculos roubados no Canaval no estado de São Paulo,segundo o ano Frequência Número de veículos roubados no Carnaval no estado de São Paulo Plan2 Plan3 _1390739565.xls Gráf1 230 260 380 300 350 400 Vendas da Compnhia metal metalurgica Vendas da Companhia metal metalurgica Plan1 1971 230 1972 260 1973 380 1974 300 1975 350 1976 400 Plan1 0 0 0 0 0 0 Vendas da Compnhia metal metalurgica Plan2 Plan3 _1390739388.xls Gráf2 2 24 35 14 1 1 1 100 a 150 150 a 200 200 a 250 250 a 300 300 a 350 350 a 400 400 a 450 Frequencia Absoluta Nível de colesterol Gráf1 2 24 35 14 1 1 1 100 a 150 150 a 200 200 a 250 250 a 300 300 a 350 350 a 400 400 a 450 Plan1 nível de colesterol Frequencia 100 a 150 2 150 a 200 24 200 a 250 35 250 a 300 14 300 a 350 1 350 a 400 1 400 a 450 1 Plan1 0 0 0 0 0 0 0 100 a 150 150 a 200 200 a 250 250 a 300 300 a 350 350 a 400 400 a 450 Frequencia Absoluta Nível de colesterol Plan2 Plan3 _1248189512.unknown _1248189697.unknown _1248189764.unknown _1248189635.unknown _1248189500.unknown _1248189230.unknown _1248189317.unknown _1248189199.unknown _1093076615.unknown _1106638765.unknown _1106638766.unknown _1106638767.unknown _1106428614.xls Gráf1 liquidificadores 50 batedeiras 30 refrigeradores 22 exaustores 10 Percentagem Evolução de vendas da Cia. X entre 1971-1972 Plan1 liquidificadores 50 batedeiras 30 refrigeradores 22 exaustores 10 Plan1 Percentagem Evolução de vendas da Cia. X entre 1971-1972 Plan2 Plan3 _1093076626.unknown _1093072716.unknown _1093076090.unknown _1093072285.unknown
Compartilhar