Baixe o app para aproveitar ainda mais
Prévia do material em texto
CAPÍTULO V – INTRODUÇÃO À ESTATÍSTICA 5.1 – Definições. - Estatística. - Estatística Descritiva - Estatística Analítica. É a parte da estatística responsável pela análise e interpretação dos dados existentes, obtidos pela estatística descritiva. 5.2 – Fases para a elaboração de uma Pesquisa Estatística. Para realizar uma pesquisa relacionada a um trabalho estatístico é necessário observar as 5 etapas no desenvolvimento desse trabalho: - A coleta de dados; - A crítica sobre os dados; - A apuração dos dados; - A exposição ou apresentação dos dados; - A análise dos resultados. 5.2.1- Coleta dos dados Depois de definido o objetivo da pesquisa (qual o motivo para ela ser realizada), damos início a primeira etapa da pesquisa que é a coleta de dados, que pode ser realizada de diversas formas: - Contínua – feita com frequência. Ex. A chamada em sala de aula. - Periódica – feita em intervalos constantes. Ex. O censo ( feito a cada 10 anos). - Ocasional – Feita a fim de atender uma emergência ou uma demanda ocasional. Ex. Uma epidemia. 5.2.2 – Crítica sobre os dados Após coletados os dados, eles devem ser analisados com cuidado, a procura de falhas, que possam influir sensivelmente no resultado da pesquisa. Ex. uma idade informada com 250 anos. 5.2.3- Apuração dos dados. É o processamento dos dados obtidos e a consequente obtenção dos resultados. Ex. Descobrir em uma população a idade média, o percentual da população mais idosa. 5.2.4- Exposição ou Apresentação dos dados. É a forma de apresentação dos dados da pesquisa da maneira mais adequada. Ex. Uso de tabelas, gráficos. 5.2.5- Análise dos Resultados. É o objetivo da pesquisa. É a etapa onde são realizadas as conclusões sobre os resultados da nossa pesquisa. Ex-1. Constatou-se que 75% da população de Belém tem abastecimento de água encanada. Ex-2. Nos 2 últimos períodos a média de aprovação dos alunos da disciplina probabilidade e estatística foi de 90%. 5.3 – População e Técnicas de Amostragem. 5.3.1 – População e Amostra. 5.3.1.1 – População. É o termo empregado para designar um conjunto de indivíduos que possuem pelo menos uma característica, ou atributo, em comum. Alguns autores empregam o termo universo para referir-se a uma população. 5.3.1.2 – Amostra Refere-se a qualquer subconjunto de uma população. A amostragem é uma das etapas mais importantes na aplicação de métodos estatísticos, envolvendo aspectos como determinação do tamanho da amostra e a representatividade da amostra com relação à população. 5.3.1.3 – Variáveis. É o conjunto das possibilidades que possui um atributo. É usada para atribuição dos valores correspondentes aos dados observados. É importante ressaltar que os dados em questão não são necessariamente numéricos, uma vez que podem dizer respeito a atributos qualitativos observados na população. Por esta razão costuma-se classificar as variáveis nas categorias definidas a seguir. a) Variável Numérica. Também chamada variável quantitativa, é utilizada para representação de dados numéricos, ou quantitativos. a.1) Variável Numérica Discreta. Variável cujo domínio é um conjunto enumerável. Geralmente corresponde a dados de contagem. Exemplo: Número de defeitos em um componente, total de unidades defeituosas em uma amostra, idade. a.2) Variável Numérica Contínua. Variável cujo domínio é um conjunto não enumerável. Refere-se a dados de mensuração. Exemplo: Diâmetro de um eixo, peso de um recém-nascido, altura. b) Variável Qualitativa. É utilizada para representação de atributos qualitativos observados na população. Pode ser dicotômica, ou binária, quando assume apenas dois possíveis valores, ou politômica, também referida como multinomial, quando pode assumir mais de dois possíveis valores. Exemplo: idade (idoso, não idoso), nomes b.1) Variável Qualitativa Categórica. É empregada para representar categorias, ou classes, às quais pertencem as observações registradas. Exemplo: Cor dos olhos, cor da pele. b.2) Variável Qualitativa Ordinal. Utiliza-se este tipo de variável em situações nas quais presume-se a necessidade de uma ordem, crescente ou decrescente, para os resultados. Exemplo: Grau de escolaridade (fundamental, médio, superior, pós- graduado), classe social. 5.3.1.4- Séries Estatísticas Uma série estatística consiste basicamente de um conjunto de valores observados para uma variável em diferentes categorias. As séries estatísticas são classificadas em três categorias. a) Série Temporal. A variável de interesse refere-se a um período de tempo. Exemplo – A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC durante o ano de 2007. Tabela 1.1 - Faturamento mensal (milhões) da empresa ABC (2007) b) Série Geográfica. Aqui a variável de interesse refere-se a um local. Exemplo – A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC durante o ano de 2007, nas respectivas regiões de atuação. Tabela 1.2 – Faturamento (milhões) da empresa ABC (2007), por região. c) Série Específica. A variável de interesse refere-se a algo específico. Exemplo - A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC durante o ano de 2007, especificado por produto. Tabela 1.3 – Faturamento (milhões) da empresa ABC (2007), por produto. d) Séries Combinadas. Na prática, é comum combinar séries estatísticas com o objetivo de aumentar, ou detalhar, as informações disponíveis. Exemplo – O quadro a seguir mostra o faturamento da empresa ABC por produto e região, isto é, uma combinação de uma série geográfica e uma série específica. Quadro 1.1 – Faturamento (milhões) da empresa ABC, por produto e região. 5.3.2 - Técnicas de Amostragem Existem vários tipos de amostragem, mas as três mais utilizadas são: - Amostragem Casual; - Amostragem proporcional estratificada; - Amostragem Sistemática. Para entendermos cada um dos tipos de amostragem, veremos o seguinte exemplo. Exemplo. Uma escola fez uma pesquisa, para saber a média de idade dos seus 135 alunos (população), utilizando uma amostra correspondente a 20% dos alunos, a partir dos seguintes dados que foram obtidos. Idade dos alunos de uma escola 21 19 24 21 22 25 27 22 21 26 27 25 26 21 22 24 23 20 21 22 25 23 20 18 18 22 23 24 21 22 21 22 24 21 22 20 18 22 21 26 18 25 20 18 18 19 22 18 21 20 25 23 22 21 18 18 20 26 21 29 21 19 24 23 19 23 27 19 21 26 27 19 26 21 22 30 22 18 21 18 20 18 22 29 20 18 25 18 19 20 21 22 19 23 22 25 18 22 28 25 18 20 23 21 22 19 18 20 30 22 20 18 28 21 26 27 25 26 18 22 21 22 24 21 18 25 18 28 21 19 19 25 18 21 19 Os dados em vermelho e sublinhado representam as idades das alunas. Determine a média da idade dos alunos, determinando a amostra, utilizando cada um dos tipos de amostragem. a) Amostragem Casual. Com uma amostra de 20% da população, essa amostra conterá a idade de 27 alunos. Vamos escolher os 27 primeiros alunos. 21 19 24 21 22 25 27 22 21 26 27 25 26 21 22 24 23 20 21 22 25 23 20 18 18 22 23 24 21 22 21 22 24 21 22 20 18 22 21 26 18 25 20 18 18 19 22 18 21 20 25 23 22 21 18 18 20 26 21 29 21 19 24 23 19 23 27 19 21 26 27 19 26 21 22 30 22 18 21 18 20 18 22 29 20 18 25 18 19 20 21 22 19 23 22 25 18 22 28 25 18 20 23 21 22 19 18 2030 22 20 18 28 21 26 27 25 26 18 22 21 22 24 21 18 25 18 28 21 19 19 25 18 21 19 média=μ=608/27 = 22,52 b) Amostragem Proporcional Estratificada. A amostra é retirada proporcionalmente as características da população. Pode-se observar que dos 135 alunos, 81 são do sexo masculino e 54 são do sexo feminino. Nesse tipo de amostragem, iremos tirar 20% dos alunos, proporcionalmente a quantidade de alunos do sexo masculino e do sexo feminino. Iremos retirar 20% dos homens e 20% das mulheres. População masculina Amostra 81 20% = 16,2 16 População feminina Amostra 54 20% = 10,8 11 Vamos extrair 16 alunos do sexo masculino e 11 alunos do sexo feminino 21 19 24 21 22 25 27 22 21 26 27 25 26 21 22 24 23 20 21 22 25 23 20 18 18 22 23 24 21 22 21 22 24 21 22 20 18 22 21 26 18 25 20 18 18 19 22 18 21 20 25 23 22 21 18 18 20 26 21 29 21 19 24 23 19 23 27 19 21 26 27 19 26 21 22 30 22 18 21 18 20 18 22 29 20 18 25 18 19 20 21 22 19 23 22 25 18 22 28 25 18 20 23 21 22 19 18 20 30 22 20 18 28 21 26 27 25 26 18 22 21 22 24 21 18 25 18 28 21 19 19 25 18 21 19 média=μ=617/27 = 22,85 c) Amostragem Sistemática Quando os elementos da população já se encontram ordenados, não há necessidade de se construir um sistema de referência. São exemplos os prédios de uma rua ou os produtos que passam em uma linha de produção. Nesse caso, a seleção dos elementos que constituirão a amostra pode ser feita por um sistema imposto pelo observador, o qual chamamos de amostragem sistemática Um exemplo seria uma rua com 900 casas e desejamos obter uma amostra de 50 casas para entrevistarmos as pessoas que moram nelas. Para compor a amostra, uma casa é escolhida a cada 18 casas. No nosso exemplo será necessário colocar todas as idades em ordem crescente ou decrescente e podermos, por exemplo, escolher um aluno a cada 5 alunos para compor a amostra. 18; 18; 18; 18; 18; 18; 18; 18; 18; 18; 18; 18; 18; 18; 18; 18; 18; 18; 18; 18; 18; 18; 19; 19; 19; 19; 19; 19; 19; 19; 19; 19; 19; 19; 20; 20; 20; 20; 20; 20; 20; 20; 20; 20; 20; 20; 21; 21; 21; 21; 21; 21; 21; 21; 21; 21; 21; 21; 21; 21; 21; 21; 21; 21; 21; 21; 21; 21; 21; 22; 22; 22; 22; 22; 22; 22; 22; 22; 22; 22; 22; 22; 22; 22; 22; 22; 22; 22; 22; 22; 23; 23; 23; 23; 23; 23; 23; 23; 24; 24; 24; 24; 24; 24; 25; 25; 25; 25; 25; 25; 25; 25; 25; 25; 25; 26; 26; 26; 26; 26; 26; 26; 26; 27; 27; 27; 27; 27; 28; 28; 28; 29; 29; 30; 30; sublinhado idade das alunas μ=597/27=22,11 5.4 - APRESENTAÇÃO DE DADOS A apresentação de dados pode ser efetuada através de dois modos, tabular ou gráfico. Para esta tarefa deve-se ter em mente o objetivo da apresentação, no que diz respeito ao nível de detalhamento e ao tipo de informação que se deseja extrair dos dados em questão. A apresentação tabular permite obter informações mais detalhadas, enquanto a apresentação gráfica permite uma compreensão mais rápida a respeito do comportamento da variável observada. 5.4.1 – Apresentação Tabular Em primeiro lugar, é importante frisar que os termos “tabela” e “quadro” são utilizados para designar objetos distintos. O primeiro designa o arranjo de dados na forma de grade com laterais abertas, enquanto o segundo termo é empregado para designar arranjos em grades com laterais fechadas, conforme a Figura abaixo. Tabela quadro Independente do formato escolhido, uma tabela deve conter três elementos: 1 – Cabeçalho. Deve conter o máximo de informações sobre os dados apresentados 2 – Corpo. De dimensões variáveis, é o espaço destinado à apresentação propriamente dita dos dados. 3 – Rodapé. Deve conter a fonte dos dados e outras informações necessárias à compreensão. 5.4.1.1 – Tabela Simples. É o tipo mais comum de tabela, utilizado para representar os valores correspondentes a uma série estatística. A disposição pode ser feita tanto por colunas como por linhas. Exemplo de tabela simples. Dados dispostos em linha. Tabela 1.1 - Faturamento mensal (milhões) da empresa ABC (2007) Fonte: Dados fictícios Exemplo de tabela simples. Dados dispostos em coluna. 5.4.1.2 – Tabela de Dupla Entrada. É utilizada para representar dados de duas séries combinadas. Exemplo de tabela de dupla entrada. 5.4.1.3 – Tabela de Múltiplas Entradas. É utilizada na representação de dados correspondentes a mais de duas séries. Exemplo de tabela de múltipla entrada. 5.4.2 – Apresentação Gráfica Para a apresentação gráfica deve-se levar em consideração o tipo de série estatística estudada e, também, o tipo de variável observada, quantitativa ou qualitativa. Também é possível combinar as duas formas de apresentação, tabular e gráfica. Os principais tipos de gráficos são: 5.4.2.1 – Gráfico Linear. É utilizado principalmente para representar séries temporais. Exemplo 5.4.2.2 – Gráfico Setorial. É utilizado para representar séries geográficas ou específicas. Exemplo Tabela 1.2 – Faturamento (milhões) da empresa ABC (2007), por região. 5.4.2.3 – Gráfico de Colunas. Pode ser utilizado no lugar do gráfico setorial. Exemplo 5.4.2.4 – Gráfico de Colunas Justapostas. É utilizado para representar dados de tabelas de dupla entrada. Exemplo 5.5 – Distribuições de Frequências Por constituir-se um tipo de tabela importante para a Estatística Descritiva, faremos um estudo completo da distribuição de freqüências. Uma distribuição de freqüências condensa um grande número de dados numa tabela, de modo que 100, 200, 500 ou um número qualquer de valores pode ser representado em poucas linhas. É uma tabela onde os dados encontram-se dispostos em classes ou categorias juntamente com suas freqüências de ocorrências correspondentes. Podemos dividir as distribuições de freqüências em dois tipos: 5.5.1 - Tipos de Distribuição a) Tipo A ou Tipo I. Os dados são representados em uma tabela de freqüências, não agrupadas em classes. É usada quando os dados possuem poucos valores diferentes. Exemplo: Tabela 1- Número de acidentes de trabalho em empresas da cidade de São Paulo - 2008 Fonte: dados fictícios Xi = identifica as categorias em que o fato se subdivide. fi = corresponde a freqüência absoluta, isto é, o número de vezes que cada uma das categorias ocorre. N = soma dos fi = total de elementos observados na população ou na amostra b) Tipo B ou Tipo II Os dados são representados em uma tabela de freqüências agrupados em classes, sob a forma de intervalos. É usada quando os dados possuem muitos valores diferentes. Exemplo X = Notas finais de 50 estudantes da disciplina de estatística Então a distribuição de freqüência será expressa pela tabela: Tabela 2 – Notas finais dos estudantes da disciplina de Estatística – 2009/1 _________________________________________________ Notas fi _________________________________________________ 1ª classe 0 10 4 2ª classe10 20 5 3ª classe 20 30 6 4ª classe 30 40 8 5ª classe 40 50 12 6ª classe 50 60 7 7ª classe 60 70 5 8ª classe 70 80 3 ______________________________________________ Total 50 ______________________________________________ Fonte: fictícia Onde fi é a freqüência absoluta das classes 5.5.2 – Tipos de Dados 5.5.2.1-Dados Brutos São os dados originais conforme eles foram coletados, não estando, portanto, numericamente organizados ou tabelados. Como exemplo tem-se as 50 notas dos alunos. 5.5.2.2 - Rol É uma lista, onde os valores são dispostos em ordem crescente ou decrescente. No exemplo das notas, o rol é: 0 2 3 9 11 12 13 15 17 20 22 22 22 26 29 30 32 33 34 35 36 37 39 40 40 41 41 42 42 43 44 45 45 46 47 50 50 50 52 56 57 59 60 62 66 67 69 70 75 79 5.5.3 - Amplitude Total (H) É a diferença entre o maior valor e o menor valor observado da variável em estudo H = Xmáx - Xmín No nosso caso, a nota maior é 79 é a menor é 0; logo, nossa amplitude total é H = 79 - 0 = 79. Deve-se observar que, quando não dispusermos dos dados, o cálculo da amplitude far- se-á levando em consideração a diferença entre o limite superior da última classe e o limite inferior da primeira classe. 5.5.4 – Classe É cada um dos intervalos em que os dados são agrupados. Existem várias maneiras de apresentarmos o intervalo de classes: iguais ou diferentes entre si. Porém, sempre que possível, deveremos optar por intervalos iguais, o que facilitará os cálculos posteriores. 5.5.5 - Limites de Classe São os números extremos de cada intervalo que compõe a classe: sendo assim, temos um limite inferior e um superior. Se a primeira classe tiver um intervalo de notas de 0 até 10, o 0 será o limite inferior enquanto que o 10 será o limite superior desta classe. Os limites de cada classe podem ser definidos de quatro modos distintos, mostrados a seguir. 1. Intervalo “exclusive exclusive”: 2. Intervalo “inclusive – exclusive”: 3. Intervalo “inclusive – inclusive”: 4. Intervalo “exclusive – inclusive”: pode-se definir como intervalo de classe (h) a diferença entre o limite superior e o limite inferior da classe. Portanto, no exemplo dado , h = 10 – 0 =10 5.5.6 - Ponto médio das classes (Xmi). É a média aritmética entre o limite superior e o limite inferior da classe. Assim, se a classe for 0 10, teremos [(0 + 10)/2]=5 , que será o ponto médio da classe. 5.5.7 - Número de Classes Quantas classes serão necessárias para representar o fato em estudo? Existem vários critérios que podem ser utilizados a fim de determinar o número de classes, porém tais critérios servirão apenas como indicação e nunca como regra fixa, pois caberá sempre ao pesquisador estabelecer o melhor número, levando-se em conta o intervalo de classe e a facilidade para os posteriores cálculos numéricos. Neste estudo, destacaremos a Fórmula de Sturges, que estabelece que o número de classes K é calculado por: K = 1 + 3,3 log n , onde n = número de elementos observados. No nosso exemplo, teríamos: K = 1 + 3,3 log n → K = 1 + 3,3 log 50 → K = 1 + 3,3(1,69897) → K = 1 + 5,6 = 6,6 ou arredondando para 7 classes. 5.5.8 - Amplitude das Classes (hc) hc = H/ K . No exemplo anterior, a amplitude de cada classe será: hc = amplitude total = 79/7 = 11,29 = 12 número de classes Obs. 1: Na amplitude das classes (hc), observe que aumentamos uma unidade, não seguindo, portanto, as regras de arredondamento. Esta é uma regra que deve ser sempre seguida no cálculo da amplitude da classe. Obs. 2: Usando o bom-senso e a experiência, poderá ser conveniente , quando possível, a utilização da amplitude de um intervalo de classe igual a 10 ou 5, facilitando as operações posteriores. 5.5.9 - Freqüência acumulada (fac): Corresponde à soma das freqüências de determinada classe com as anteriores. No exemplo, a freqüência acumulada da 4a classe é: f1 + f2 + f3 + f4 = 4 + 5 + 6 + 8 = 23. 5.5.10 - Freqüência relativa (fri): Corresponde ao quociente entre a freqüência absoluta da classe e o total de elementos. = i i ri f f f No exemplo, a freqüência relativa da 7ª classe é: 1,0 50 5 50 f 7r7 === f Ex. 1 – Construa uma tabela de distribuição de frequência completa para as notas dos alunos de estatística. Tabela 2 – Notas finais dos estudantes da disciplina de Estatística – 2009/1 _________________________________________________ Notas fi _________________________________________________ 1ª classe 0 10 4 2ª classe 10 20 5 3ª classe 20 30 6 4ª classe 30 40 8 5ª classe 40 50 12 6ª classe 50 60 7 7ª classe 60 70 5 8ª classe 70 80 3 ______________________________________________ Total 50 ______________________________________________ Ex. 2 - Uma indústria embala peças em caixas com 100 unidades. O controle de qualidade selecionou 48 caixas na linha de produção e anotou em cada caixa o número de peças defeituosas. Obtendo os seguintes dados: 2 0 0 4 3 0 0 1 0 0 1 1 2 1 1 1 1 1 1 0 0 0 3 0 0 0 2 0 0 1 1 2 0 2 0 0 0 0 0 0 0 0 0 0 0 0 1 0 obtenha a distribuição de frequências dos dados. Ex. 3 - Antes de enviar um lote de aparelhos elétricos para venda, o Departamento de Inspeção da empresa produtora selecionou uma amostra casual de aparelhos, avaliando o desempenho através de uma medida especifica, obtendo os seguintes resultados: 154 175 175 178 190 200 218 211 165 164 176 180 190 198 215 212 155 172 180 184 192 195 202 205 170 156 178 180 190 200 210 205 Pede:-se a) Construa um rol b) Construa uma distribuição de frequência com intervalo de classes c) Quantos aparelhos foram testados? d) Qual é o numero de classes? e) Qual é a amplitude total da amostra? f) Qual é a amplitude total da distribuição? g) Qual é a amplitude da quinta classe? 5.6 - Gráficos de uma distribuição de freqüência. As distribuições de freqüências podem ser representadas através de três tipos de gráficos: 5.6.1 - Histograma. É a representação gráfica de uma distribuição de freqüência por meio de retângulos justapostos, cujas alturas são proporcionais às freqüências absolutas e cujas bases correspondem ao intervalo de classe da distribuição. Na figura abaixo um exemplo de histograma 5.6.2 - Polígono de Freqüências: É um gráfico em linhas formado por segmentos de retas; os pontos extremos dos segmentos correspondem ao par ordenado formado pelo ponto médio de cada classe da distribuição(eixo x) e pela freqüência absoluta (eixo y). 5.6.2 - Ogiva ou polígono de frequência acumulada É um gráfico em linhas formado por segmentos de retas; os pontos extremos dos segmentos correspondem ao par ordenado formado pelo limite superior de cada classe (eixo x) e pela freqüência acumulada (eixo y). fa Exemplo 1. Para o conjunto de dados mostrado abaixo, determine a distribuição de frequência completa e: a) Construa um histograma; b) construa um polígono de frequência; c) Construa uma ogiva Nota dos alunos de estatística – turma nova 32 36 38 40 40 41 41 42 42 43 44 45 45 46 50 50 50 50 53 55 57 58 60 66 66 70 70 70 75 75 5.7 - Medidas de Tendência. São utilizadas para dar uma interpretação para os dados de uma dada distribuição de frequência e, dessa forma, podermos obter informações sobre as tendências características de cada distribuição de frequência. Essas informações, denominadas elementos típicos da distribuição são: a) Medidas de tendência central ou de posição; b) Medidas de dispersão ou de variabilidade; c) medidas de assimetria; d) medidas de curtose; 5.7.1- Medidas de Tendência Central ou de Posição. São medidas utilizadas para encontrar os valores representativos do conjunto de dados, de modo a resumir ao máximo as observações sobre os dados em questão. As principais medidas de posição são a média aritmética, a média aritmética ponderada, a mediana e a moda. 5.7.1.1 – Média Aritmética Seja um conjunto de dados {x1 , x2 , ... , xn }. A média aritmética, ou simplesmente “média”, é dada por n x X n i i = − = 1 Média de uma amostra n x n i i == 1 Média da população OBS: A notação − X é empregada para representar a média de uma amostra de valores. A média da população costuma ser representada pela letra grega μ Exemplo 1 – Seja o conjunto de dados {2 , 4 , 3 , 5 , 6 , 2 , 5}. Calcule a média aritmética. Exemplo 2. Para o conjunto de dados das notas dos alunos de estatística, mostrado anteriormente, determine a média aritmética. =1550/30 = 51,66 5.7.1.2 – Média Aritmética Ponderada Para dados agrupados em distribuições de freqüências a média aritmética ponderada é calculada utilizando-se a frequência absoluta como peso. Então, se um conjunto de n valores foi agrupado em k classes, com pontos médios xm1 , xm2 , ... , xmk , e freqüências absolutas f1 , f2 , ... , fk , respectivamente, então a média aritmética ponderada é dada por: = = − = k i i i k i mi f fx X 1 1 Ex. Determinar a média aritmética ponderada das notas dos alunos de estatística vistas anteriormente. 32 36 38 40 40 41 41 42 42 43 44 45 45 46 50 50 50 50 53 55 57 58 60 66 66 70 70 70 75 75 H=75-32 = 43 ## K= 1+3,3 log30 = 5,87 → K = 6 ## h = 43 / 6 = 7,16 → h = 8 Tabela – Notas dos estudantes da disciplina de Estatística ________________________________________________ Notas fi fa Xmi fi Xmi _________________________________________________ 32 40 3 3 36 108 40 48 11 14 44 484 48 56 6 20 52 312 56 64 3 23 60 180 64 72 5 28 68 340 72 80 2 30 76 152 _______________________________________________ Total 30 1576 _____________________________________________ μ = 1576/30 =52,53 5.7.1.3 - Mediana (Md). É o valor que ocupa a posição central em um conjunto de dados 5.7.1.3.1 - Mediana para dados não agrupados Para dados não agrupados, esses dados são organizados em ordem crescente. Se a quantidade de valores é ímpar, a mediana, ou valor mediano, é simplesmente o valor central. Se a quantidade de valores é par, a mediana é a média dos dois valores centrais. Exemplo 1 – Seja o conjunto {3 , 3 , 4 , 5 , 5 , 6 , 7 , 9 , 11 , 12 , 12}. Neste caso a mediana é Md= 6. Exemplo 2 – Seja o conjunto {0 , 1 , 1 , 2 , 3 , 4 , 5 , 5 , 6 , 6 , 7 , 8}. Aqui a mediana é dada pela média dos dois valores centrais, isto é, Md= (4 + 5)/2 = 4,5. 5.7.1.3.2 – Mediana para dados agrupados em distribuições de freqüências. É usada a expressão: c a i h fi f n LMd − += 2 onde: Li = limite inferior da classe que contém o valor mediano, isto é, da classe cuja freqüência acumulada crescente é igual ou imediatamente superior a n / 2. fa = freqüência acumulada da classe anterior à classe que contém o valor mediano. fi = freqüência simples ou absoluta da classe que contém o valor mediano. hc = amplitude da classe que contém o valor mediano. Exemplo 1. Para a tabela da distribuição de frequência das notas de estatísticas, determine a mediana. Tabela – Notas dos estudantes da disciplina de Estatística ________________________________________________ Notas fi fa Xmi fi Xmi _________________________________________________ 32 40 3 3 36 108 40 48 11 14 44 484 48 56 6 20 52 312 56 64 3 23 60 180 64 72 5 28 68 340 72 80 2 30 76 152 _______________________________________________ Total 30 1576 _____________________________________________ 5.7.1.3 - Moda A moda, ou valor modal, de um conjunto de dados é o valor com maior freqüência individual. É importante ressaltar que o valor modal pode não existir, além disto, caso exista, pode não ser único. Neste último caso, diz-se que o conjunto é bimodal, trimodal, etc. Ex. Para o conjunto de dados { 18,19, 20, 20, 23, 25, 25, 25, 28} a moda é Mo= 25. Para dados agrupados em distribuições de freqüências, a moda pode ser calculada através da fórmula dada por: ci hLMo + += 21 1 onde: Li = limite inferior da classe modal, isto é, a de maior freqüência absoluta. ∆1 = (freqüência absoluta da classe modal menos a freqüência absoluta da classe anterior). ∆2 = (freqüência absoluta da classe modal menos a freqüência absoluta da classe posterior). hc = amplitude da classe modal. Exemplo 1. Para a tabela da distribuição de frequência das notas de estatísticas, determine a moda. Tabela – Notas dos estudantes da disciplina de Estatística ________________________________________________ Notas fi fa Xmi fi Xmi _________________________________________________ 32 40 3 3 36 108 40 48 11 14 44 484 48 56 6 20 52 312 56 64 3 23 60 180 64 72 5 28 68 340 72 80 2 30 76 152 _______________________________________________ Total 30 1576 _____________________________________________ 5.7.2 - Medidas de dispersão ou de variabilidade; Como podemos observar as medidas de posição nos mostram qual a tendência entre os números de uma distribuição. A média aritméticamostra uma observação média e central entre todos os números, a mediana os valores centrais de uma distribuição e a moda os números que ocorrem com maior frequência. As medidas de posição (ou tendência central), não observam a variação (ou dispersão) entre os números de uma distribuição. Exemplo. Foi realizada uma pesquisa onde se registrou a temperatura de 2 cidades durante uma semana. O resultado foi o seguinte: Cidade Temperatura média A 23; 24; 22; 22; 23; 23; 24 23 B 26; 31; 16; 23; 20; 23; 22 23 Mesmo as médias sendo iguais a cidade A apresentou uma temperatura mais homogênea, enquanto a cidade B apresentou maior variação. A principal utilidade das medidas de tendência central é a determinação de valores característicos ou típicos de um conjunto de dados. Entretanto, a informação fornecida por tais medidas é incompleta, se não for acompanhada de alguma informação sobre a variabilidade dos dados. Esta informação é obtida através do cálculo de medidas de dispersão ou de variabilidade. 5.7.2.1 - Amplitude Total Seja um conjunto de dados ordenados {x1 , x2 , ... , xn }, onde x1 e xn representam o valor mínimo e o valor máximo, respectivamente, do conjunto. A amplitude total é dada por: 1xxAT n −= Esse parâmetro é falho, pois é influenciado apenas pelos valores extremos , desprezando os demais números que compõem a distribuição. Exemplo 1 – Calcule a amplitude total para o conjunto de dados do Quadro abaixo. Notas dos alunos de estatística 0 2 3 9 11 12 13 15 17 20 22 22 22 26 29 30 32 33 34 35 36 37 39 40 40 41 41 42 42 43 44 45 45 46 47 50 50 50 52 56 57 59 60 62 66 67 69 70 75 79 79079 =−=AT 5.7.2.2 - Variância 5.7.2.2.1- Para dados não agrupados Seja um conjunto de dados {x1 , x2 , ... , xn }, não necessariamente ordenados. A variância é gerada a partir das diferenças dos valores do conjunto de dados em relação à média do mesmo. Entretanto, é necessário ter em mente a natureza dos dados estudados, mais especificamente, se os mesmos constituem uma população ou uma amostra. Para o primeiro caso, a variância é dada por: n x n i i = − = 1 2 2 )( Variância de uma população Para o caso de uma amostra a variância é obtida por: 1 )( 1 2 2 − − = = − n xx S n i i Variância de uma amostra Vários estudos foram realizados e mostram, matematicamente, que quando calculamos a variância de uma amostra usando (n-1), a variância obtida será a melhor estimativa da variância da população, tornando-se assim uma estimativa com menor erro. Ex. 1 – Calcule a variância para uma amostra, cujo dados são mostrados abaixo: 2 2 1 5 4 3 3 1 4 5 X= 30/10 = 3 S2 = 2 [(1-3)2 +(2-3)2 +(3-3)2 + (4-3)2 +(5-3)2 ] / 9 = 20 / 9 = 2,22 5.7.2.2.1- Para dados agrupados. Para uma distribuição de freqüências com k classes, com freqüências absolutas f1 , ... , fk , e pontos médios Xm1 , ... , Xmk , respectivamente, a variância de uma população é dada por: Para uma amostra a variância é dada por: Ex. Calcular a variância para os dados da distribuição de freqüências das notas dos alunos de estatística Notas dos alunos de estatística 32 36 38 40 40 41 41 42 42 43 44 45 45 46 50 50 50 50 53 55 57 58 60 66 66 70 70 70 75 75 Tabela – Notas dos estudantes da disciplina de Estatística ________________________________________________ Notas fi fa Xmi fi Xmi fi (Xmi -52,53) 2 _________________________________________________ 32 40 3 3 36 108 819,7227 40 48 11 14 44 484 800,3699 48 56 6 20 52 312 1,6854 56 64 3 23 60 180 167,4027 64 72 5 28 68 340 1196,6045 72 80 2 30 76 152 1101,6818 _________________ ______________________________ Total 30 1576 4087,467 _______________________________________________ σ2 = 4087,467 / 30 = 136,2489 5.7.2.3 – Desvio Padrão 1 )( 1 1 2 __ 2 − − = = = k i i k i mii f xxf S = = − = k i i k i mii f xf 1 1 2 2 )( O desvio padrão é uma das medidas mais usadas na análise da dispersão dos valores em uma série de dados. Ele é definido como a raiz quadrada da variância, fornecendo uma medida nas mesmas dimensões dos dados analisados. Algumas propriedades úteis do desvio padrão: - O desvio padrão é um valor positivo, e portanto indica uma distância entre os valores medidos e a média; - Pelo menos 75% dos valores em uma população estão dentro do intervalo [μ - 2σ, μ + 2σ], onde μ denota a média e σ denota o desvio padrão; - Em uma distribuição normal, cerca de 95% dos valores da população estão dentro do intervalo acima. Ex. 1 – Calcule o desvio padrão para a amostra do exemplo anterior. 2 2 1 5 4 3 3 1 4 5 5.7.3 – Medidas de Assimetria A assimetria de um conjunto de dados, agrupados ou não, pode ser avaliada através do coeficiente de assimetria: ass = 3( − X - Md) / Se ass for igual a zero então a distribuição (ou conjunto de dados) é dito simétrico. Se uma distribuição de freqüências é simétrica então as 3 medidas de posição coincidem, isto é, − X = Md = Mo. distribuição de freqüências simétrica Se ass > 0 então a assimetria é positiva significando que o gráfico da distribuição tem uma cauda alongada à direita. Se a distribuição é positivamente assimétrica então − X > Md > Mo http://www.cavalcanteassociados.com.br/index.php?page=article&id=15 distribuição de frequências com assimetria positiva Caso ass seja negativo a cauda do gráfico será alongada à esquerda. Se a distribuição é negativamente assimétrica então − X < Md < Mo distribuição de freqüências com assimetria negativa Exemplo 1 – Calcular o coeficiente de assimetria para o conjunto de dados abaixo 2,7 2,7 2,8 3,1 3,5 3,9 3,9 A média é − X = 3,2286 , o desvio padrão é = 0,5323 e a mediana é Md = 3,1. Então: ( ) 7248,0 5323,0 1,32286,33 = − =ass é uma distribuição assimétrica positiva 5.7.4 - Percentil O valor mediano é aquele que divide um conjunto de dados ordenados em duas partes iguais. Da mesma forma, também pode ser útil discriminar valores correspondentes a uma determinada percentagem. Este tipo de situação ocorre, por exemplo, quando se deseja determinar a renda familiar que define os 10% mais ricos em uma sociedade. Para determinar certo percentil em um conjunto de dados é suficiente ordenar estes mesmos dados e localizar o elemento correspondente à fração desejada, de modo análogo ao usado para determinar a mediana. Exemplo 1 – Seja o conjunto de dados mostrado no Quadro abaixo. O 90º percentil é o valor que separa 90% dos exemplares com menor comprimento dos 10% com a maior comprimento. Então, considerando que o conjunto tem n = 150 observações, basta separar os 15 últimos elementos, que são justamente os pertencentes à última coluna. Neste caso o 90º percentil é igual a 37. Isto significa que 90% dos exemplares apresentam comprimento inferior a 37 cm. Comprimento em cm de 150 amostras de folhas de babosa Para dados agrupados em distribuições de freqüências pode-se utilizar a fórmula dadapor: c P a IPP h f f pn LP − += 100 onde: LIP = limite inferior da classe que contém o p–ésimo percentil, isto é, da classe cuja freqüência acumulada é igual ou imediatamente superior a pn / 100. fa = freqüência acumulada da classe anterior à classe que contém o p–ésimo percentil. fP = freqüência absoluta da classe que contém o p–ésimo percentil. hc = amplitude da classe que contém o p–ésimo percentil. Exemplo 1 – Calcular o 90º percentil e o 10º percentil para a distribuição de freqüências abaixo, que foi obtida dos dados mostrados no exemplo anterior __________________________________________ Classes fi fa 135 100 15090 100 == xpn O valor procurado pertence à 6ª. classe, que tem frequência acumulada igual a 138. LIP = 35 fa = 125 fP = 13 h = 38 – 35 = 3 Substituindo na fórmula 3,373 13 125135 3590 = − +=P 5.7.5 – Medidas de Curtose A Curtose mede o achatamento de uma distribuição de freqüências, em comparação com uma distribuição normal e é avaliada através do coeficiente percentílico de Curtose dado por Para uma distribuição normal, o coeficiente de curtose é C = 0,263 e a distribuição é chamada de mesocúrtica. Se o valor calculado para C é inferior a 0,263, diz-se que a distribuição é leptocúrtica (alongada). Se o valor é superior a 0,263, diz-se que a distribuição é platicúrtica (achatada). As três situações são ilustradas nas figuras abaixo. A caracterização do tipo de curtose auxilia na avaliação da dispersão dos dados do conjunto. Uma distribuição leptocúrtica possui dispersão baixa, enquanto uma distribuição platicúrtica possui dispersão elevada, tomando como referência a dispersão verificada em uma distribuição normal. Distribuição mesocúrtica Distribuição leptocúrtica Distribuição platicúrtica
Compartilhar