Baixe o app para aproveitar ainda mais
Prévia do material em texto
13-Mar-14 1 MAT02214 - Estatística Geral I Estatística Descritiva: Distribuição de frequência Prof.: Fernanda Rodrigues Vargas fernanda.vargas@ufrgs.br Distribuição de frequências Constitui uma das formas mais comuns de resumir e apresentar um grande número de dados através de tabelas. Estas tabelas podem ser de dois tipos: de classificação simples ou de classificação cruzada. 2 Distribuição de frequências Além de resumir a informação, tem por finalidade: 1. Representar a forma como os valores das variáveis se distribuem (localização da maioria dos valores, simetria, número de picos e formato das caudas). 2. Indicar qual modelo de distribuição de probabilidade poderia ser adequado para esses dados, pois fornece uma ideia empírica da distribuição da população. 3 Tabelas de classificação simples São tabelas de frequências relativas a uma variável. Variável qualitativa ou quantitativa discreta (com poucos valores): são obtidas as frequências de ocorrência de cada nível dessa variável. Variável quantitativa contínua: primeiro são obtidos intervalos de mesma amplitude e depois conta-se os valores que ocorrem em cada intervalo. 4 13-Mar-14 2 Distribuição de frequências Variável qualitativa: cada nível da variável constituirá uma classe. Exemplo: Considere os dados referentes ao conceito obtido por 60 estudantes na disciplina de Estatística: Dados brutos: ruim, médio, bom, médio, ruim, médio, ruim, médio, ruim, bom, médio, médio, bom, médio, médio, médio, ótimo, médio, bom, ótimo, bom, ótimo, médio,ótimo, médio, ru im, médio, ótimo, médio, médio, bom, ruim, bom, bom, médio, ruim, médio, médio, ó timo, médio, bom, ruim, ruim, bom, médio, médio, ruim, bom, médio, médio, bom, bo m, bom, médio, ruim, bom, médio, médio, ruim, médio 5 Construção da tabela Passos para a construção da tabela de distribuição de frequência para variáveis qualitativas: 1° passo: ordenar os níveis da variável, colocando-os em ordem crescente. O número de cada classe da distribuição será representado por j, sendo j = 1, 2, ..., k. 2° passo: Contar o número de elementos em cada classe, ou seja, contar quantas vezes o dado se repete. 6 Construção da tabela 1° passo: 7 Variável qualitativa ordinal com quatro níveis Cada nível constitui uma classe. Logo o número total de classes é k=4. Construção da tabela 2° passo: 8 A contagem do número de estudantes em cada nível são denotados por Fj e chamados de frequências absolutas das classes. A partir da frequência absoluta podemos obter outras frequências importantes. 13-Mar-14 3 Outras frequências: Frequência absoluta acumulada: expressa o número de elementos (observações) acumulados até a classe j. Denotada por Fj´: 9 + Outras frequências: Frequência relativa:expressa a proporção de elementos (observações) na classe j. Denotada por fj: 10 12/60 = 0,2 27/60 = 0,45 Outras frequências: Frequência relativa acumulada: expressa a proporção de elementos (observações) acumulados até a classe j. Denotada por fj´: 11 + Interpretação 12 Número de alunos que obtiveram conceito Médio Número de alunos que obtiveram até conceito Bom Proporção de alunos que obtiveram até conceito Médio Proporção de alunos que obtiveram conceito Ruim 13-Mar-14 4 Distribuição de frequências Variável quantitativa discreta: Exemplo: Considere a variável: número de animais portadores de brucelose em 350 propriedades rurais. Dados brutos: 2, 5, 6, 0, 4, 4, 3, 4, 2, 2, 3, 3, 5, 3, 5, 1, 2, 4, 2, 3, 5, 4, 3, 3, 2, 3, 0, 4, 4, 3, 4, 0, 3, 1, 2, 4 , 2, ... 13 Foram observados apenas sete valores diferentes para esta variável. Logo, a tabela de distribuição de frequências terá sete classes. Construção da tabela 1° passo: Identificar e ordenar os valores da variável. 14 2° passo: Contar o número de elementos em cada classe. Frequências absolutas das classes. Construção da tabela Completar a tabela com as outras frequências importantes: 15 Fj’ - frequência absoluta acumulada fj - frequência relativa fj’ - frequência relativa acumulada Interpretação 16 Das 350 propriedades rurais consultadas, 112 possuem 2 animais portadores da doença. Número de propriedades que possuem menos de 4 animais infectados. Proporção de propriedades rurais que possuem até 3 animais infectados. Proporção de propriedades rurais com apenas 1 animal infectado. 13-Mar-14 5 Exercício proposto Os dados a seguir se referem ao número diário de pães não vendidos em uma certa padaria até a hora do encerramento do expediente: 0 0 4 2 0 1 0 2 0 4 1 0 0 3 2 0 1 0 0 0 2 0 0 1 0 0 3 2 1 7 0 1 0 0 2 0 0 3 2 1 Construa a distribuição de frequências para esses dados. 17 Distribuição de frequências Variável quantitativa contínua: Tabelas de distribuição de frequências são construídas de modo que cada classe seja constituída por um intervalo de valores da variável. Em algumas situações uma variável discreta pode assumir muitos valores diferentes. Nesses casos, é usual agrupar os dados discretos em intervalos de classe, da mesma forma que se agrupam os dados contínuos. 18 Distribuição de frequências Variável quantitativa contínua: Exemplo: Os dados abaixo referem-se aos valores gastos (em reais) pelas primeiras 50 pessoas que entraram num determinado supermercado em um certo dia. Dados brutos: 32,03 19,54 45,40 25,13 46,69 18,36 13,78 15,23 36,37 15,62 17,00 27,65 85,76 38,64 86,37 24,58 20,16 93,34 48,65 22,22 23,04 42,97 28,06 52,75 3,11 8,88 9,26 10,81 12,69 28,38 18,43 61,22 41,02 44,67 19,50 17,39 39,16 44,08 38,98 19,27 26,24 28,08 59,07 82,70 26,26 24,47 54,80 70,32 50,39 20,59 19 Construção da tabela Passos para a construção da tabela de distribuição de frequência para variáveis quantitativas: 1° passo: ordenar o conjunto de dados, ou seja, colocar os dados brutos em ordem crescente. 20 Dados ordenados: 3,11 8,88 9,26 10,81 12,69 13,78 15,23 15,62 17,00 17,39 18,36 18,43 19,27 19,50 19,54 20,16 20,59 22,22 23,04 24,47 24,58 25,13 26,24 26,26 27,65 28,06 28,08 28,38 32,03 36,37 38,98 38,64 39,16 41,02 42,97 44,08 44,67 45,40 46,69 48,65 50,39 52,75 54,80 59,07 61,22 70,32 82,70 85,76 86,37 93,34 Voltar 13-Mar-14 6 Construção da tabela 2° passo: determinar o número de classes (k) da tabela. Este valor não deverá ser inferior a 5 e nem superior a 15. A definição do k deverá ser orientada pelos objetivos do trabalho. Porém, existem algumas regras objetivas para determiná-lo, como, por exemplo: 21 Fórmula de Sturges: k = 1 + 3,32 x log n Regra empírica: k = n n = número de observações; log = logaritmo de base 10. Construção da tabela 3° passo: determinar a amplitude do intervalo através da seguinte expressão: 22 k i at i = amplitude do intervalo; = x(n) - x(1) : amplitude total do conjunto de dados; k = número de classes. at Arredondar para cima o valor de i e k. x(1) : menor valor do conjunto de dados x(n) : maior valor do conjunto de dados Construção da tabela 2° passo: n = 50 23 Fórmula de Sturges: k = 1 + 3,32 x log n = 6,64 ≈ 7 Regra empírica: k = = 7,07 ≈ 8 n 3° passo: x(1) = 3,11 x(50) = 93,34 = 93,34 – 3,11 = 90,23 9,1289,12 723,90 k i at at Amplitude do intervalo: Dados Construção da tabela 4° passo: construir os intervalos de classe. 24 limite inferior da primeira classe limite superior da classe k 5° passo: contar o número de observações em cada classe. 13-Mar-14 7 Construção da tabela 4° passo: 25 5° passo: Classe (j) Limite inferior da classe Limite superior da classe 1 3,11 16,01 2 16,01 28,91 3 28,91 41,81 4 41,81 54,71 5 54,71 67,61 6 67,61 80,51 7 80,51 93,41 Frequência absoluta 8 20 6 8 3 1 4 Construção da tabela Completar a tabela com outras frequências importantes: 26 Classe (j) Limite inferior da classe (li) Limite superior da classe (ls) Fj Fj' fj fj' cj 1 3,11 16,01 8 8 0,16 0,16 9,56 2 16,01 28,91 20 28 0,4 0,56 22,46 3 28,91 41,81 6 34 0,12 0,68 35,36 4 41,81 54,71 8 42 0,16 0,84 48,26 5 54,71 67,61 3 45 0,06 0,9 61,16 6 67,61 80,51 1 46 0,02 0,92 74,06 7 80,51 93,41 4 50 0,08 1 86,96 Total 50 --- 1 --- --- Ponto médio ou centro da classe: (ls + li)/2 Interpretação da tabela F3 – 6 das 50 pessoas gastaram entre R$ 28,91 e R$ 41,81 (exclusive). ou 6 das 50 pessoas gastaram R$ 28,91 ou mais, e menos de R$ 41,81. F5’ – Até 45 pessoas gastaram menos de R$ 67,61. ou 45 pessoas gastaram entre R$ 3,11 e R$ 67,61 (exclusive). f3 – 12% das pessoas gastaram entre R$ 28,91 e R$ 41,81 (exclusive). f5’ – Mais da metade das pessoas, 56%, gastaram até R$ 28,91. 27 Recomendações Usar intervalos de mesma amplitude, mas eventualmente uma amplitude variável poderá ser mais adequada ao contexto. Todas as observações devem ser classificadas. As classes são mutuamente exclusivas, ou seja, uma observação pertence a uma única classe. Os intervalos são fechados à esquerda e abertos à direita, com exceção da última classe, que é fechada à esquerda e à direita. 28 13-Mar-14 8 Exercício proposto Considere a variável: peso ao nascer (em kg) de bovinos machos. Os valores observados foram: 16, 17, 17, 18, 18, 18, 19, 20, 20, 20, 20, 20, 21, 21, 22, 22, 23, 23, 23, 23, 23, 23, 23, 23, 23, 25, 25, 25, 25, 25, 25, 26, 26, 27, 27, 27, 27, 28, 28, 28, 29, 29, 29, 30, 30, 30, 30, 30, 30, 30, 31, 32, 33, 33, 33, 34, 34, 35, 36, 39 Construa a distribuição de frequências para esses dados. 29 Representação gráfica As distribuições de frequências podem ser representadas graficamente: Gráfico de colunas; Gráfico de setores; Histograma; Polígono de frequências. 30 Variável Qualitativa Variável Quantitativa Contínua Representação gráfica 31 Gráfico de colunas: Gráfico de setores: A altura de cada coluna representa a frequência absoluta ou relativa da respectiva classe. A frequência de cada categoria é representada pelo tamanho do setor (ou fatia). Representação gráfica 32 Histograma: é um gráfico formado por um conjunto de retângulos contíguos, cuja base é igual à amplitude do intervalo e a altura proporcional à frequência das respectivas classes. Frequência relativa 13-Mar-14 9 Representação gráfica 33 Quando trabalhamos com variáveis quantitativas discretas, os retângulos do histograma se reduzem a retas, deixando de ser contíguos. Representação da distribuição do número de animais portadores de brucelose em 350 propriedades rurais Frequência no ponto Representação gráfica 34 Polígono de frequência: é constituído por segmentos de retas que unem os pontos cujas coordenadas são o ponto médio e a frequência de cada classe. Tabelas de classificação cruzada Interesse em estudar duas ou mais variáveis simultaneamente Surgem as distribuições conjuntas de frequências. As tabelas de classificação cruzada são tabelas de frequências relativas a duas variáveis, qualitativas ou quantitativas. 35 Frequências cruzadas de Variáveis Qualitativas Se o estudo envolver duas variáveis qualitativas (categóricas), a tabela de frequência cruzada dessas duas variáveis é conhecida como tabela de dupla entrada, também chamadas de tabelas de contingência. 36 Cada elemento no corpo da tabela fornece a frequência observada das duas variáveis simultaneamente. 13-Mar-14 10 Frequências cruzadas de Variáveis Qualitativas 37 Número de alunos que pertencem simultaneamente às respectivas categorias: há 12 homens que preferem geografia no segundo grau, já entre as mulheres apenas 6 preferem geografia. Dos 41 alunos homens pesquisados no segundo grau, 11 preferem Matemática. Forma de apresentação usada quando estamos interessados não somente na observação individual e, sim, no comportamento em conjunto das variáveis. Frequências cruzadas de Variáveis Qualitativas 38 Com as frequências marginais da tabela cruzada, podemos obter a tabela de classificação simples para cada variável. Há 5 alunos que preferem Ciências, 18 que preferem Geografia, ... Frequências cruzadas 39 Na construção das tabelas de classificação simples era acrescentada à tabela a coluna referente às freqüências relativas, que forneciam a proporção de elementos em cada classe com relação ao número total de elementos. Um procedimento análogo pode ser feito para as tabelas bidimensionais. Existem três possibilidades para expressarmos as proporções de cada célula: (i) com relação ao total geral; (ii) com relação ao total de cada linha e (iii) com relação ao total de cada coluna. A escolha entre essas três possibilidades deverá ser feita de acordo com o objetivo da análise. Distribuição conjunta relativa 40 (i) com relação ao total geral: 5% dos alunos são do sexo Masculino e preferem Ciências no segundo grau. 18,75% são do sexo feminino e preferem Matemática. Em cada célula temos a proporção de indivíduos que pertencem às categorias das variáveis simultaneamente. 13-Mar-14 11 Distribuição condicional 41 (ii) com relação ao total de cada linha: Dos alunos que preferem Português, 35,29% dos alunos são do sexo masculino e 64,71% do sexo feminino. Dos alunos que preferem Ciências 66,67% dos alunos são do sexo masculino e 33,33% do sexo feminino. Distribuição condicional 42 (iii) com relação ao total de cada coluna: Dentre os homens, a maioria prefere Geografia, enquanto que entre as mulheres a maioria prefere Matemática. 19,51% dos homens preferem História no segundo grau, enquanto que 15,38% das mulheres preferem Geografia. Representação gráfica Gráficos em duas dimensões (diagramas): descrevendo a variação de um fator dentro dos níveis do outro. 43 0 2 4 6 8 10 12 14 16 Masculino Feminino 0 2 4 6 8 10 12 14 16 Masculino Feminino Ciências Geografia História Matemática Português Ressalta a distribuição por sexo dentro de cada matéria . Ressalta a distribuição por matéria predileta estratificado por sexo. Frequências cruzadas de Variáveis Quantitativas Quando se estuda conjuntamente duas variáveis quantitativas, as tabelas de classificação cruzada são denominadas tabelas de correlação. As tabelas de frequências cruzadas são construídas de modo similar às de classificação simples (seguindo todos os passos descritos antes). Primeiro as observações são classificadas segundo uma das variáveis. Em seguida, dentro de cada classe da primeira, as observações serão classificadas de acordo com a outra variável. 44 13-Mar-14 12 Frequências cruzadas de Variáveis Quantitativas Os gráficos geralmente utilizados para descrever dados como estes são os histogramas em três dimensões (estereogramas), nos quais os retângulos são substituídos pelos paralelogramos.45 Representação gráfica O diagrama de dispersão é um gráfico utilizado para representar conjuntamente os valores de duas variáveis quantitativas contínuas, com o objetivo de estudar uma possível relação entre as variáveis. Exemplo: As variáveis despesas com alimentação e renda. Quando a renda aumenta será que ocorre também um aumento com as despesas com alimentação? Será que existe relação entre o peso do pai e o peso do filho? 46 Representação gráfica Exemplo: A fim de estudar o relacionamento entre as variáveis Peso do pai (X) e Peso do filho (Y), foram medidos os pesos (em kg) de dez alunos de um Colégio Municipal e de seus respectivos pais. 47 Observação Peso dos pais Peso dos filhos 1 78 60 2 65 52 3 86 68 4 68 53 5 83 65 6 68 57 7 75 58 8 80 62 9 82 65 10 66 53 Gráfico de dispersão Exercício proposto Considere o seguinte exemplo fictício: A direção de uma empresa está estudando a possibilidade de fazer um seguro saúde para seus funcionários e respectivos familiares. Para isso, realizou um levantamento de dados por departamento obtendo informação sobre: sexo, estado civil, número de dependentes e salário (expresso como fração do salário mínimo). Os dados apresentados referem-se ao Departamento de Recursos Humanos. 1. Construa a distribuição de frequências para cada uma das variáveis. 2. Construa as distribuições conjuntas de frequências para as variáveis: - sexo e número de dependentes; - estado civil, número de dependentes; - sexo e salário. 48 13-Mar-14 13 Exercício proposto 49 Nome Sexo Estado civil Número de dependentes Salário João da Silva M Casado 3 6,26 Pedro Fernandes M Viúvo 1 7,39 Maria Freitas F Casada 0 5,73 Paula Gonçalves F Solteira 0 6,59 Ana Freitas F Solteira 1 6,23 Luiz Costa M Casado 3 7,67 André Souza M Casado 4 8,12 Patrícia Silva F Divorciada 2 6,49 Regina Lima F Casada 2 8,46 Alfredo Souza M Casado 3 7,54 Margarete Cunha F Solteira 0 6,73 Pedro Barbosa M Divorciado 2 7,00 Ricardo Alves M Solteiro 0 5,87 Márcio Rezende M Solteiro 1 5,49 Ana Carolina Chaves F Solteira 0 6,34
Compartilhar