Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Federal da Paraíba – UFPB Centro de Ciências Exatas e da Natureza – CCEN Departamento de Estatística – DE Disciplina: Estatística Vital APOSTILA DE ESTATÍSTICA VITAL Professora: MSc. Gilmara Alves Cavalcanti E-mail: gilmara@de.ufpb.br João Pessoa/PB Profa. MSc. Gilmara Alves Cavalcanti Página 2 Mude mas comece devagar, porque a direção é mais importante que a velocidade. [...] Quando sair, Procure andar pelo outro lado da rua. Depois mude de caminho, ande por outras ruas, calmamente, observando com atenção os lugares por onde você passa. [...] Mude. Lembre-se que a vida é uma só. [...] Se você não encontrar razões para ser livre, invente-as. Seja criativo. [...] Experimente coisas novas. Troque novamente. Mude, de novo. Experimente outra vez. [...] (Clarice Lispector) De tudo ficaram três coisas: A certeza de que estamos sempre a começar... A certeza de que é preciso continuar... A certeza de que seremos interrompidos antes de terminar... Portanto, devemos: Fazer da interrupção um caminho novo... Fazer da queda um passo de dança... Do medo uma escada... Do sonho uma ponte... Da procura um encontro... E assim terá valido a pena existir... (Fernando Sabino) Profa. MSc. Gilmara Alves Cavalcanti Página 3 PROGRAMA: UNIDADE I: ANÁLISE DE DADOS ESTATÍSTICOS. 1.1 – Conceitos Fundamentais de Estatística. 1.2 – Fases do Método ou Trabalho Estatístico. 1.3 – Distribuições de Freqüências 1.4 – Representações Gráficas das Distribuições de Freqüências 1.5 – Medidas de Posição (Medidas de Tendência Central). 1.6 – Medidas de Dispersão e Achatamento. UNIDADE II: INTRODUÇÃO À PROBABILIDADE. 2.1 – Introdução. 2.2 – Conceitos de Probabilidade (Experimento, Espaço Amostral, Eventos). 2.3 – Noções Fundamentais de Probabilidade. 2.4 – Probabilidades da União e Interseção. 5.5 – Probabilidade Condicional. UNIDADE III: DISTRIBUIÇÃO DE PROBABILIDADE. 3.1 – Introdução. 3.2 – Variáveis Aleatórias Discretas. 3.3 – Variáveis Aleatórias Contínuas. 3.4 – Esperança Matemática e Variância. 3.5 – Algumas Distribuições de Probabilidade (Binomial e Normal). UNIDADE IV: ESTATÍSTICA INFERENCIAL. 4.1 – Noções Elementares de Amostragem. 4.2 – Distribuição Amostral. UNIDADE V: TEORIA DE ESTIMAÇÃO. 5.1 – Introdução. 5.2 – Estimação por Ponto. 5.3 – Estimação por Intervalo. UNIDADE VI: TESTES DE HIPÓTESES. 6.1 – Introdução. 6.2 – Conceitos Fundamentais. 6.3 – Passos para a Construção de um Teste de Hipótese. 6.4 – Testes sobre a Média da População. 6.5 – Testes sobre a Proporção da População. UNIDADE VII: CORRELAÇÃO E REGRESSÃO LINEAR. 7.1 – Introdução. 7.2 – Correlação. 7.3 – Regressão Linear Simples. UNIDADE VIII: DEMOGRAFIA E COEFICIENTES VITAIS. 8.1 – Introdução. 8.2 – Demografia e Coeficientes Vitais. UNIDADE IX: ANÁLISE DE VARIÂNCIA. 9.1 – Introdução 9.2 – Análise de Variância para Experimentos ao Acaso 9.3 – Teste de Tukey para Comparação de Médias 9.4 – Análise de Variância com Número Diferente de Repetições. Profa. MSc. Gilmara Alves Cavalcanti Página 4 UNIDADE I: ANÁLISE DE DADOS ESTATÍSTICOS 1.1 – CONCEITOS FUNDAMENTAIS DE ESTATÍSTICA “Podemos considerar a Estatística como um conjunto de métodos e processos quantitativos que serve para estudar e medir fenômenos coletivos”. A Estatística teve acelerado desenvolvimento a partir do século XVIII, através dos estudos de Bernoulli, Pascal, Laplace, Gauss, Galton, Pearson, Fisher, Poisson, Golmogorov e outros que estabeleceram suas características essenciais; A Estatística continua a progredir na ação direta do desejo de investigação dos fenômenos coletivos, ainda não alcançou um estado definitivo; Mantém com a Matemática uma relação de dependência, solicitando-lhe auxílio, sem o qual não poderia desenvolver-se. Com as outras ciências mantém a relação de complemento, quando utilizada como instrumento de pesquisa; A relação de complemento é a forma que a Estatística, através dos seus Métodos Estatísticos, mantém com as áreas tecnológicas, as ciências exatas e outras, servindo como instrumento para a tomada de decisões; Tem como objetivo o estudo dos fenômenos coletivos; ESTATÍSTICA CIÊNCIA "A ciência não é um conhecimento definitivo sobre a realidade, mas um conhecimento hipotético, que pode ser questionado e corrigido". (Sônia Vieira) Ensinar ciência não significa apenas descrever fatos, enunciar leis e apresentar novas descobertas, mas ensinar o método científico, que é a maneira de buscar o conhecimento. Exige: Organização dos dados, análise e tomada de decisões em condições de incerteza. ESTATÍSTICA: ferramenta do método científico Os métodos estatísticos vêm sendo cada vez mais utilizados nas mais diversas áreas. O que é Estatística? Definições: (1) "É a parte da Matemática Aplicada que trata de chegar a conclusões a partir de dados observados". (2) "É a ciência que trata da organização, descrição, análise e interpretação de dados experimentais". (3) "É a ciência que se ocupa dos fenômenos aleatórios". (4) "É o estudo dos métodos e procedimentos para recolher, classificar, resumir e analisar dados e, a partir deles, estabelecer inferências científicas". (5) "Não se limita ao levantamento e apresentação de dados numéricos dispostos em tabelas e gráficos, mas também constitui na ciência da tomada de decisões ante a incerteza". (6) "É a ciência ocupada em medir com precisão a imprecisão". (7) "É a ciência que se ocupa em medir a incerteza". Profa. MSc. Gilmara Alves Cavalcanti Página 5 Generalizando: É a ciência que coleta, classifica e avalia numericamente fatos que servirão de base para extrair conclusões. É um conjunto de técnicas para se obter conhecimento preciso a partir de informações incompletas; É um sistema científico para coleta, organização, análise, interpretação e apresentação de informações que possam ser colocadas sob forma numérica. A Estatística trata de idéias e métodos que visam aperfeiçoar a obtenção de conclusões a partir de informações numéricas, na presença da incerteza. Métodos Estatísticos: são métodos adaptados ao esclarecimento de dados quantitativos sujeitos à influência de uma multiplicidade de causas. Ramos da Estatística: a) Estatística Descritiva: é parte da Estatística que tem por objetivo descrever os dados observados. Trata da observação de fenômenos de mesma natureza, da coleta de dados numéricos referentes a esses fenômenos, da sua organização e classificação através de tabelas e gráficos, bem como da análise e interpretação. Utiliza números para descrever fatos. A finalidade é tornar as coisas mais fáceis de entender, relatar e discutir. São atribuições da Estatística Descritiva: Organização dos dados (consiste na ordenação e crítica quanto a correção dos valores observados, falhas humanas, omissões, abandono de dados duvidosos, etc..). Redução dos dados (o entendimento e compreensão de grande quantidade de dados através da simples leitura de seus valores individuais é uma tarefa extremamente árdua e difícil mesmo para o mais experiente pesquisador, portanto, deve-se tabular os dados). Representação dos dados (os dados estatísticos podem ser mais facilmente compreendidos quando apresentados através de uma representação gráfica, a qual permite uma visualização instantânea de todosos dados. Os gráficos quando bem representativos tornam-se importantes instrumentos de trabalho). Obtenção de algumas informações que auxiliam a descrição do fenômeno observado (que sumarizam os dados facilitando a descrição dos fenômenos observados). Exemplo: taxa de desemprego; custo de vida; altura média de estudantes; b) Probabilidade Estatística: utilizado para situações que envolvem o acaso (aleatoriedade). Exemplo: jogos de cartas e de dados; jogos esportivos; decisão de atravessar uma rua; c) Inferência Estatística: estuda as características de uma população com base em dados obtidos de amostras – Amostragem. Exemplo: provar um pedaço de bolo; verificar a temperatura da água de uma piscina; folhear um novo livro; grandes processos industriais (amostra piloto); RAZÕES PARA O USO DA AMOSTRAGEM: Custo (observações custam dinheiro, portanto, quanto maior o número de dados, maior o custo envolvido) – a amostragem reduz a quantidade de dados e, conseqüentemente, os custos; Profa. MSc. Gilmara Alves Cavalcanti Página 6 Valor da informação dura pouco (para ser útil a informação deve ser obtida e usada rapidamente, visto que, às vezes o exame de um artigo o destrói) – a amostragem é a única maneira de obter isso; Tempo; OBS1: Estatística Indutiva pode ser denominada como inferencial. Portanto, a estatística indutiva estuda as características de uma população, com base em dados obtidos de amostras. Inferência = Indução + Margem de Erro OBS2: Os três ramos da estatística não são separados. Eles tendem a se entrelaçar. OBS3: Objetivando o estudo quantitativo e qualitativo dos dados (ou informações), obtidos nos vários campos da atividade científica, a Estatística manipula dois conjuntos de dados fundamentais: a população e a amostra. MÉTODO análise e NÚMEROS processamento INFORMAÇÕES ESTATÍSTICO interpretação (DADOS) DADOS ESTATÍSTICOS: normalmente o pesquisador se vê obrigado a lidar com uma grande quantidade de valores numéricos resultantes de um censo ou de uma amostragem. Estes valores numéricos são chamados de dados estatísticos. São obtidos através de um processo que envolve a observação ou a mensuração de itens. VARIÁVEIS: valores que exibem um determinado grau de variabilidade. POPULAÇÃO: É o conjunto de elementos (na totalidade) que têm, em comum, uma determinada característica. Pode ser finita (de tamanho N), como por exemplo, o conjunto de alunos de uma determinada escola, ou infinita, como o número de vezes que se pode jogar um dado. Na maioria das vezes, não é conveniente, ou mesmo possível realizar o levantamento dos dados referentes a todos os elementos de uma população. Portanto, analisamos parte da população, isto é, amostramos. AMOSTRA: É qualquer subconjunto não vazio ou parte da população. A técnica de seleção desse subconjunto de elementos é chamada de Amostragem. Duas considerações devem ser feitas sobre o estudo amostral dos fenômenos: 1. Deve-se assegurar que a amostra seja representativa da população. Para atender essa exigência, deve-se selecionar os elementos de forma aleatória, de modo que todo e qualquer elemento da população tenha a mesma chance de participar da amostra. 2. Os dados coletados devem ser precisos, buscando minimizar os erros que poderiam induzir a conclusões equivocadas. O número de elementos de uma amostra é chamado de tamanho da amostra, e denotado por “n”. Profa. MSc. Gilmara Alves Cavalcanti Página 7 VARIÁVEL: É condição inerente à uma população natural existir variação quanto aos atributos que lhe podem ser estudados. Portanto, a variabilidade é uma característica comum a dados de observação e experimentos. Um atributo sujeito à variação é descrito em Estatística por uma variável. As informações ou dados característicos dos fenômenos ou populações são denominados variáveis estatísticas ou simplesmente variáveis. Nominal Qualitativa Ordinal (por Posto) Variável Discreta Quantitativa Contínua Variável Qualitativa: nem sempre os elementos de uma população são exclusivamente contáveis. Muitas vezes, eles podem ser qualificados segundo algumas de suas características típicas. Os dados podem ser distribuídos em categorias mutuamente exclusivas. Exemplo: sexo (masculino, feminino), cor, causa de morte, grupo sangüíneo, etc. Nominal: surge quando se definem categorias e se conta o número de observações em cada categoria. Ordinal: surge quando se definem categorias cujos valores relativos são atribuídos para denotar ordem: primeiro, segundo, terceiro, etc. Variável Quantitativa: os dados são expressos através de números, os quais estão associados às variáveis que estão sendo medidas. São, em geral, resultantes de medições, contagens e enumerações. Exemplo: idade, estatura, peso, etc. Discreta: assume valores inteiros. Está associada à idéia de contagem do número de itens com determinada característica. Contínua: assume qualquer valor em um intervalo contínuo. Está associada à idéia de medição. Veja o exemplo de algumas variáveis: Populações Tipos de Variáveis Nominal Ordinal Contínua Discreta Alunos de Administração Menino/Menina 2º grau Idade/Peso Nº da Matrícula Automóveis Cores Limpeza Km/h Nº de Defeitos Venda de Imóveis Acima do preço Preço alto Valor R$ Nº de Ofertas PARÂMETRO: É uma característica numérica estabelecida para toda uma população. ESTIMADOR: É uma característica numérica estabelecida para uma amostra. Profa. MSc. Gilmara Alves Cavalcanti Página 8 ESTIMATIVA: É o valor numérico assumido pelo estimador numa determinada amostra. Exemplo: No fenômeno coletivo eleição para prefeito do município de João Pessoa, a população é o conjunto de todos os eleitores habilitados na respectiva cidade. Um parâmetro é a proporção de votos do candidato A. Uma amostra pode ser um grupo de 1000 eleitores selecionados em todo o município. Um estimador é a proporção de votos do candidato A obtida na amostra. O valor resultante do estimador, a proporção amostral, é a estimativa. 1.2 – FASES DO MÉTODO OU TRABALHO ESTATÍSTICO A realização de uma pesquisa deve passar, necessariamente, pelas fases resumidas no diagrama abaixo, se um resultado satisfatório e preciso é desejado. Definição do Planejamento Coleta dos Crítica dos Problema Dados Dados Análise e Interpretação Tabelas e Apresentação dos Dados Gráficos dos Dados DEFINIÇÃO DO PROBLEMA: saber exatamente o que se pretende pesquisar, ou seja, definir corretamenteo problema. Essa primeira fase consiste na formulação correta do problema a ser estudado. PLANEJAMENTO: determinar o procedimento necessário para resolver o problema, como levantar informações sobre o assunto objeto do estudo. É o trabalho inicial de coordenação no qual define-se a população a ser estudada estatisticamente, formulando-se o trabalho de pesquisa através da elaboração de questionários, entrevistas, etc. É importante a escolha das perguntas, que na medida do possível, devem ser fechadas. A organização do plano geral, implica em obter respostas para uma série tradicional de perguntas, antes mesmo do exame de informações disponíveis sobre o assunto, perguntas que procuram justificar a necessidade efetiva da pesquisa, a saber: “quem”, “o que”, “sempre”, “por que”, “para que”, “para quando”. Suponha que a Biblioteca da UFPB tenha necessidade de obter informações acerca dos usuários em potencial que utilizam-na. O primeiro trabalho da equipe encarregada da pesquisa será o de obter respostas para aquelas perguntas. Seriam então: Quem deseja as informações? O que devemos perguntar no questionário? Será executada sempre? A pesquisa será periódica ou ocasional? Por que desejam as informações? Para que desejam as informações? Quando deverá estar concluída a pesquisa? Qual a época oportuna para a aplicação dos questionários? No caso de um experimento, deve-se atentar para os objetivos que se pretende alcançar. O levantamento dos dados pode ser de dois tipos: 1. Censitário (avaliação direta de um parâmetro envolvendo toda a população) Admite erro processual zero; Tem confiabilidade 100%; É caro, lento, quase sempre desatualizado e nem sempre é viável; Profa. MSc. Gilmara Alves Cavalcanti Página 9 2. Amostragem (avaliação indireta de um parâmetro, com base em um estimador através do cálculo das probabilidades. Utiliza-se uma parte da população) Admite erro processual positivo; Tem confiabilidade menor que 100%; É barata, rápida, atualizada e sempre viável; Outros elementos do planejamento de uma pesquisa são: Cronograma das atividades; Custos envolvidos; Exame das informações disponíveis (análise da reunião de tudo que foi publicado sobre o assunto, obtendo-se relatórios sobre atividades semelhantes); Delineamento da amostra; COLETA DOS DADOS: consiste na busca ou compilação dos dados. A coleta de dados poderá ser feita de diversas formas. A ideal é aquela que maximiza os recursos disponíveis, dados os objetivos e a precisão anteriormente estipulados. Quando os dados se referirem ou estiverem em poder de pessoas, sua coleta poderá ser realizada mediante respostas a questionários previamente elaborados. Esses questionários podem ser enviados aos entrevistados para devolução posterior ou podem ser aplicados pelos próprios pesquisadores ou por entrevistadores externos ou contratados, devidamente treinados. Os dados ou informações representativas dos fenômenos ou problema em estudo podem ser obtidos de duas formas: por via direta ou por via indireta. Por via direta: quando os dados são coletados pelo próprio pesquisador através de entrevistas ou questionários, ou ainda, quando feita sobre elementos informativos de registro obrigatório, por exemplo, nascimentos, casamentos, óbitos, matrículas de alunos, etc. Pode ser classificada, quanto ao tempo, em: a) Contínua: quando realizada permanentemente. Também denominada “registro”. É feita continuamente tal como a de nascimentos, óbitos; b) Periódica: quando é feita em intervalos constantes de tempo como os censos (de 10 em 10 anos), os balanços de uma empresa comercial, etc; c) Ocasional: quando é efetuada em época pré-estabelecida, extemporaneamente, a fim de atender a uma conjuntura ou a uma emergência, como no caso de epidemias que assolam ou dizimam seres humanos; Por via indireta: quando é inferida de elementos conhecidos (coleta direta) e/ou conhecimento de outros fenômenos relacionados com o fenômeno estudado. Como exemplo, podemos citar a pesquisa sobre a mortalidade infantil, que é feita através de dados colhidos via coleta direta. CRÍTICA DOS DADOS: objetiva a eliminação de erros capazes de provocar futuros enganos. Faz-se uma revisão crítica dos dados suprimindo os valores estranhos ao levantamento. Os dados colhidos por qualquer via ou forma e não previamente organizados são chamados de dados brutos, antes de serem submetidos ao processamento estatístico propriamente dito, devem ser “criticados” visando eliminar valores impróprios e erros grosseiros que possam interferir nos resultados finais do estudo. A crítica é externa quando visa às causas dos erros por parte do informante, por distração ou por má interpretação das perguntas que lhe foram feitas; é interna quando se observa o material constituído pelos dados coletados. É o caso, por exemplo, da verificação de soma de valores anotados. APRESENTAÇÃO DOS DADOS: a organização dos dados denomina-se "Série Estatística". Sua apresentação pode ocorrer por meio de tabelas e gráficos. Portanto, por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser apresentados sob forma Profa. MSc. Gilmara Alves Cavalcanti Página 10 adequada (tabelas e gráficos), tornando mais fácil o exame daquilo que está sendo objeto de tratamento estatístico. ANÁLISE E INTERPRETAÇÃO DOS DADOS: consiste em tirar conclusões que auxiliem o pesquisador a resolver seu problema, descrevendo o fenômeno através do cálculo de medidas estatísticas, especialmente as de posição e as de dispersão. INCERTEZA PESQUISA ESTATÍSTICA Palpites com relação a acontecimentos Permite analisar a natureza da realidade futuros, a fim de prever o que acontecerá. a fim de escolher as incertezas, testando A: podemos confirmar nossas previsões; as ideias através de pesquisas sistemáticas B: as previsões podem não ser confirmadas; De uma forma geral: PROBLEMAS FUNDAMENTAIS DA ANÁLISE ESTATÍSTICA: SOLUÇÃO: (a) Como obter dados úteis? Fases do Método Estatístico (b) O que fazer com eles? Organização e resumo dos dados afim de que se possa realizar a análise dos mesmos. LISTA DE EXERCÍCIOS 1.1 E 1.2 1. Explique a relação existente entre a Estatística e o método científico. 2. Defina o termo Estatística. 3. Quais são as três áreas principais da Estatística e suas particularidades? 4. Defina os termos população e amostra? 5. Quais as principais razões da amostragem? 6. Para ser útil, que característica deve ter uma amostra? 7. Como são classificadas as variáveis? 8. A variabilidade existirá em qualquer tipo de experimento? Justifique. 9. Dê exemplos de situações em que a Estatística é útil. 10. Exemplifique uma situação prática, em uma empresa, definindo cada fase do método estatístico. Profa. MSc. Gilmara Alves Cavalcanti Página 11 1.3 – DISTRIBUIÇÃO DE FREQUÊNCIAS 1.3.1 – REPRESENTAÇÃO TABULAR Consiste em dispor os dados em linhas e colunas, distribuídas de modo ordenado, segundo algumas regras práticas e obedecendo à Resolução número 886/66, de 26 de Outubro de 1966, do Conselho Nacional de Estatística. Componentes das Tabelas: a) Título: Explica o que a tabela contém. Responde a perguntas como: O quê? (fenômeno); Onde? (local); Quando? (época). b) Cabeçalho: Indica o conteúdo das colunas. c) Coluna Indicadora: Especifica o conteúdo das linhas. d) Cabeçalho da Coluna da Indicadora: Indica o conteúdo da coluna indicadora. e) Corpo: Caselasou células onde são registrados os dados. f) Rodapé: Notas de identificação da fonte de onde foram coletados os dados. OBS: A "fonte" corresponde à indicação da entidade ou órgão responsável pelo fornecimento dos dados ou pela sua elaboração. Tabela – Casos registrados de intoxicação humana, segundo a causa determinante. Brasil, 1993. Causa Freqüência Absoluta Freqüência Relativa Acidente 29.601 29.601 / 43.905 = 0,67 Abuso 2.604 2.604 / 43.905 = 0,06 Suicídio 7.965 7.965 / 43.905 = 0,18 Profissional 3.735 3.735 / 43.905 = 0,09 Total 43.905 1 Fonte: IBGE Séries Estatísticas: São os dados organizados em forma de tabelas. De acordo com a época de ocorrência, o fenômeno e o local classificam-se, respectivamente, em: Temporal, Especificativa e Geográfica. a) Série Temporal: os dados são observados segundo a época de sua ocorrência. b) Série Geográfica: os dados são observados segundo o local onde ocorreram. c) Série Especificativa: os dados são agrupados segundo a modalidade (espécie) de ocorrência. d) Série Mista ou de Dupla Entrada: corresponde a fusão de duas ou mais séries simples. Pode ser visto como uma Tabela de Contingência, a qual ocorre quando os elementos da amostra ou da população são classificados de acordo com dois fatores. Exemplos: Tabela 01 – População brasileira no período de 1940 a 1970. Anos População 1940 41.236.315 1950 51.944.397 1960 70.119.071 1970 93.139.037 Fonte: Livro de Estatística. Tabela 02 – Região de origem de universitários. São Paulo, 2000. Região f f % Urbana 240 12 Suburbana 1400 70 Rural 360 18 Total 2000 100 Fonte: Livro de Estatística. Profa. MSc. Gilmara Alves Cavalcanti Página 12 Tabela 03 – Entrevistados segundo a distribuição ocupacional. Natal, 2001. Distribuição Ocupacional Nº de Entrevistados Artesanato 52 Gerencial 29 Serviços Burocráticos 34 Trabalho Não qualificado 65 Total 180 Fonte: Livro de Estatística. Tabela 04 – Número de alunos em uma exposição de pintura segundo o sexo e o tipo de arte preferida. São Paulo, 2000. Sexo Tipo de Arte Arte Clássica Arte Moderna Masculino 80 70 Feminino 20 30 Fonte: Livro de Estatística. Exercícios: 1. Segundo informações do IBGE, em 31.12.99, o pessoal administrativo ocupado em estabelecimentos públicos, era, segundo o tipo de ocupação: Administração, 41.371; Serviço Pessoal, 6.067; Contabilidade, 2.989; Estatística, 5.481; Limpeza e Conservação, 26.520; Almoxarifado, 3.970; Serviços Gerais, 46.073; e Outros, 15.689. Nos estabelecimentos da rede particular, nas mesmas ocupações anteriores, as quantidades respectivas eram: 45.392, 4.555, 6.627, 3.112, 42.155, 4.019, 49.038 e 17.302. Dispor os dados acima em uma tabela, utilizando valores absolutos e relativos. 2. Classifique as séries estatísticas abaixo. Identifique os componentes que faltam e complete-os (de modo fictício quando necessário). Tabela 01 – Desempenho Operacional da Varig (em R$ milhões). Natal, 1997 – 2001. Anos Valores fr f % 1997 41 1998 37 1999 61 2000 198 2001 483 Fonte: Rev. Época, 15/jul/2002 Tabela 02 – Parcela de gastos (em relação ao total) com materiais e medicamentos em internação pelo SUS, em 1994, segundo as regiões. Regiões Parcela de Gastos (%) Norte 46,41 Nordeste 65,27 Sudeste 40,53 Sul 41,68 Centro-Oeste 43,19 Fonte: USP / Revista de Saúde Pública Tabela 03 – Candidatos a Deputado Estadual nos estados da região Nordeste. Brasil. Estados Nº de Candidatos Alagoas 267 Ceará 516 Maranhão 474 Paraíba 220 Pernambuco 631 Piauí 204 Rio Grande do Norte 233 Sergipe 237 Bahia 569 Fonte: Tribunal Superior Eleitoral Tabela 04 – Fracionamento do salário no orçamento familiar do brasileiro (%). Brasil, 2002. Descrição % Habitação 35,4 Alimentação 28,7 Saúde, Tarifas Públicas, Transporte 19,4 Vestuário, Educação, Lazer 16,5 Fonte: Rev. Época, 24/06/2002 Profa. MSc. Gilmara Alves Cavalcanti Página 13 Tabela 05 – Brasil, 1997. Causas de Morte Nº de Mortes Homicídio 331.361 Acidentes de Trânsito 220.784 Doenças Cerebrovasculares 103.973 Doenças do Coração 74.505 Acidentes sem Especificações 69.949 Afogamento 66.441 Total 867.013 Fonte: Estudos Epidemiológicos Tabela 06 – Valor de uma dívida de R$ 1.000 ao fim de 1 (um) ano, de acordo com o tipo de financiamento. Brasil, 2002. Tipo de Financiamento Montante (R$) Empréstimo Pessoal 1.847,84 Cheque Especial 3.087,46 Crediário 2.172,01 Cartão de Crédito 3.296,01 Empréstimo em Financeiras 2.842,06 Tabela 07 – Balança comercial do estado do Rio Grande do Norte, 1992-1999. Anos Valor (US$ mil) Exportações Importações 1992 72.934 11.271 1993 81.288 16.393 1994 86.729 33.279 1995 79.228 34.542 1996 94.876 101.978 1997 93.504 125.445 1998 101.748 88.528 1999 115.473 84.267 Fonte: Boletim Conjuntural, SUDENE, Agosto/2000. Tabela.08 – Fabricantes Participação (%) 1997 1998 1999 Johnson & Johnson 42,4 39,0 38,7 Kimberly Clark 16,0 21,9 25,7 Procter & Gamble 23,6 19,2 15,5 Outros 18,0 19,9 20,1 1.3.2 – DISTRIBUIÇÃO DE FREQÜÊNCIAS Os dados numéricos após coletados são colocados em série e apresentados em tabelas ou quadros. Quando se estuda uma variável (qualitativa ou quantitativa), o maior interesse do pesquisador é conhecer a distribuição dessa variável através das possíveis realizações (valores) da mesma. Tabelas com grandes números de dados são cansativas e não dão uma visão rápida e geral do fenômeno. Dessa forma, é necessário que os dados sejam organizados em uma distribuição de frequências (simples ou em classes). Considere, para efeito de estudo, o banco de dados apresentado abaixo: Tabela 1.1 – Informações sobre sexo, curso, idade (anos), procedência, renda familiar, número de disciplinas matriculadas, peso (kg) e altura (cm) de 31 alunos matriculados na disciplina Cálculo das Probabilidades e Estatística I, período 97.1, turma 04, matutino. ID Sexo Curso Idade (em anos) Procedência Renda Familiar Nº Disciplinas Matriculado Peso (Kg) Altura (cm) 01 Mas Ciências 27 Capital Baixa 3 68 170 02 Mas Eng.Civil 18 Interior Média 7 60 175 03 Fem Ciências 21 Capital Média 6 57 168 04 Mas Eng.Mec 23 Interior Baixa 5 54 N.Infor. 05 Mas Eng.Mec 23 Interior Baixa 5 54 N.Infor. 06 Fem Ciências 21 O. Região Média 7 47 153 07 Fem Ciências 21 Capital Média 8 46 162 08 Mas Eng.Mec 27 Interior Média 4 90 174 09 Mas Eng.Civil 21 Capital Alta 5 51 172 10 Fem Eng.Civil 19 Capital Média 6 43 158 Profa. MSc. Gilmara Alves Cavalcanti Página 14 11 Mas Eng.Civil 18 O. Região Média 5 73 177 12 Mas Eng.Civil 18 O. Região Alta 6 69 175 13 Fem Eng.Mec 22 Capital Média 6 70 172 14 Fem Eng.Civil 19 Capital Média 5 57 165 15 Mas Eng.Civil 19 Capital Média 5 73 183 16 Mas Eng.Civil 18 Capital Alta 6 55 167 17 Mas Eng.Civil 19 Capital Média 5 82 181 18 Mas Eng.Civil 23 Capital Média 4 65 175 19 Mas Eng.Civil 19 O. Região Média 5 71 170 20 Fem Eng.Civil 18 Capital Média 5 68 170 21 Mas Eng.Civil 18 Capital Média 5 70 170 22 Mas Eng.Civil 20 Capital Média 5 67 177 23 N.Infor. Eng.Civil 19 Capital Média 7 68 170 24 Mas Eng.Civil 24 Capital Média 7 70 170 25 Fem Eng.Civil 20 Capital Média 6 58 161 26 Fem Eng.Civil 21 Capital Média 5 51 158 27 Mas Eng.Civil 20 Capital Média 5 84 18028 Mas Eng.Civil 21 Interior Média 6 65 167 29 Mas Eng.Civil 20 Interior Baixa 6 62 164 30 Mas Eng.Civil N.Infor. Capital Média 3 84 170 31 Fem Eng.Civil 21 Capital Média 6 62 173 Fonte: Questionário aplicado – aula 18/03/97. Distribuição de Frequências: série estatística em que os dados são agrupados em classes, com suas respectivas frequências absolutas, relativas e percentuais, com o objetivo de facilitar ao analista o seu estudo. Uma distribuição de frequências pode ser apresentada nas seguintes maneiras: 1.3.2.1 – DISTRIBUIÇÃO DE FREQÜÊNCIAS POR VALORES É construída considerando-se os diferentes valores ou categorias, levando em consideração suas respectivas repetições (variável qualitativa ou quantitativa). Exemplos: Tabela 1.2 – Distribuição de frequências e percentuais dos 31 estudantes de Cálculo das Probabilidades e Estatística I, Turno: Matutino, Turma: 04, Período: 97.1, segundo a região de procedência. Procedência Número de Estudantes (fi) Percentual (f %) Capital 21 67,7 Interior 6 19,4 O. Região 4 12,9 Total 31 100,0 Fonte: Tabela 1.1 Profa. MSc. Gilmara Alves Cavalcanti Página 15 Tabela 1.3 – Distribuição de frequências e percentuais dos 31 estudantes de Cálculo das Probabilidades e Estatística I, Turno: Matutino, Turma: 04, Período: 97.1, segundo o número de disciplinas matriculadas. Número de Disciplinas Matriculadas Número de Estudantes (fi) Percentual (f %) 3 2 6,5 4 2 6,5 5 13 41,9 6 9 29,0 7 4 12,9 8 1 3,2 Total 31 100,0 Fonte: Tabela 1.1 1.3.2.2 – DISTRIBUIÇÃO DE FREQÜÊNCIAS POR INTERVALOS OU CLASSES Constroem-se classes de valores, quando a variabilidade dos dados é grande, levando em consideração o número de valores que pertencem a cada classe. A construção de tabelas de frequências para variáveis contínuas necessita de certos cuidados (variável quantitativa). Exemplo: Tabela 1.4 – Distribuição de frequências e percentuais dos 31 estudantes de Cálculo das Probabilidades e Estatística I, Turno: Matutino, Turma: 04, Período: 97.1, segundo a altura. Alturas (em cm) Número de Estudantes (fi) Percentual (f %) 150 |--- 157 1 3,4 157 |--- 164 4 13,8 164 |--- 171 12 41,5 171 |--- 178 9 31,0 178 |---| 185 3 10,3 Total 29 100,0 Fonte: Tabela 1.1 Nota: dentre os 31 respondentes, 2 não informaram a altura. CONSTRUÇÃO DE UMA TABELA SIMPLES: Dados Brutos: são os dados apresentados desordenadamente, da forma como foram coletados. Rol: são os dados apresentados em ordem crescente. A partir da ordenação os números são dispostos em uma tabela com as respectivas frequências. CONSTRUÇÃO DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIAS EM CLASSES: Os seguintes componentes são necessários: Dados Brutos: são os dados apresentados desordenadamente, da forma como foram coletados. Rol: são os dados apresentados em ordem crescente. Profa. MSc. Gilmara Alves Cavalcanti Página 16 Amplitude Total (A): é a diferença entre o maior valor do rol (LS) e o menor valor (LI). A = LS – LI Número de Classes (c): corresponde à quantidade de classes, nas quais serão agrupados os elementos do rol. Para determinar c, utiliza-se a fórmula de Sturges: c = 1 + (3,33333.....).log(n) , onde n = número de elementos do rol. Amplitude ou Intervalo de Classe (i): geralmente utilizam-se intervalos iguais, obtidos através da fórmula: i = A/c Outros elementos da tabela: Li = limite inferior de cada classe; Ls = limite superior de cada classe; PM ou x = ponto médio de cada classe PM = Li + (i/2); f = freqüência absoluta: é o número de ocorrências de cada classe; fr = freqüência relativa: é a razão entre a freqüência simples é o total de observações; f/ff r 1f r . f % = freqüência percentual f % = 100.fr onde 100%f ; F = freqüência absoluta acumulada "abaixo de"; F = freqüência absoluta acumulada "acima de"; F% = freqüência percentual acumulada "abaixo de"; F% = freqüência percentual acumulada "acima de"; Exemplos: 1. BANCO DE DADOS 01 (Construir uma tabela simples): Dados Brutos: 1 4 2 5 3 2 0 3 2 1 5 4 2 5 0 3 2 4 2 3 2 3 2 1 4 2 1 3 4 2 Rol: Construção da tabela simples: OBS: Nos intervalos (ou classes) Li (incluir) |--- Ls (excluir) Profa. MSc. Gilmara Alves Cavalcanti Página 17 Análises: 2. BANCO DE DADOS 02 (Construir uma tabela em classes): Dados Brutos: 1,51 1,65 1,58 1,54 1,65 1,40 1,61 1,08 1,81 1,38 1,56 1,83 1,69 1,22 1,22 1,68 1,47 1,68 1,49 1,80 1,33 1,83 1,50 1,46 1,67 1,60 1,23 1,54 1,73 1,43 2,18 1,46 1,53 1,60 1,59 1,49 1,46 1,72 1,56 1,43 1,69 1,15 1,89 1,47 2,00 1,58 1,37 1,40 1,76 1,62 1,96 1,66 1,51 1,31 2,29 1,58 2,34 1,66 1,71 1,44 1,66 1,36 1,43 1,26 1,47 1,52 1,57 1,33 1,86 1,75 1,57 1,83 1,52 1,66 1,90 1,59 1,47 1,86 1,73 1,55 1,52 1,40 1,86 2,02 Rol: 1,08 1,15 1,22 1,22 1,23 1,26 1,31 1,33 1,33 1,36 1,37 1,38 1,40 1,40 1,40 1,43 1,43 1,43 1,44 1,46 1,46 1,46 1,47 1,47 1,47 1,47 1,49 1,49 1,50 1,51 1,51 1,52 1,52 1,52 1,53 1,54 1,54 1,55 1,56 1,56 1,57 1,57 1,58 1,58 1,58 1,59 1,59 1,60 1,60 1,61 1,62 1,65 1,65 1,66 1,66 1,66 1,66 1,67 1,68 1,68 1,69 1,69 1,71 1,72 1,73 1,73 1,75 1,76 1,80 1,81 1,83 1,83 1,83 1,86 1,86 1,86 1,89 1,90 1,96 2,00 2,02 2,18 2,29 2,34 Amplitude Total: Número de Classe: Intervalo de Classe: Análises: Profa. MSc. Gilmara Alves Cavalcanti Página 18 OBS: Na construção de uma distribuição de frequências utilizando dados contínuos perde-se certa quantidade de informação, visto que os valores individuais perdem sua identidade quando agrupados em classes. Na distribuição de frequências construída utilizando dados discretos não há perda de informação. LISTA DE EXERCÍCIO 1.3 1. Elabore uma tabela de distribuição de frequências em classes da variável idade (em anos) dos 30 estudantes de Cálculo das Probabilidades e Estatística I conforme Tabela 1.1. 2. Construir uma tabela de distribuição de frequência simples (bancos de dados 01 e 02). Nos seguintes, construir uma distribuição de frequência em classes. Analisar todos os resultados. Banco de Dados 01.: Número diário de paralisações em uma máquina industrial. 1 3 1 1 0 1 0 1 1 0 2 2 0 0 0 1 2 1 2 0 0 1 6 4 3 3 1 2 4 0 Banco de Dados 02.: Idade de pacientes submetidos a um determinado exame. 85 85 85 85 85 87 88 88 88 88 88 88 88 88 88 88 89 89 89 90 90 90 90 90 Banco de Dados 03.: Número de filhos de um grupo de 50 casais. 2 3 0 2 1 1 1 3 2 5 6 1 1 4 0 1 5 6 0 2 1 4 1 3 1 7 6 2 0 1 3 1 3 5 7 1 3 1 1 0 3 0 4 1 2 2 1 2 3 2 Banco de Dados 04.: Salários (em s.m) de funcionários de uma determinada empresa. 4,00 4,56 5,25 5,73 6,26 6,66 6,86 7,39 7,44 7,59 8,12 8,46 8,74 8,95 9,13 9,35 9,77 9,80 10,53 10,76 11,06 11,59 12,00 12,79 13,23 13,60 13,85 14,69 14,71 15,99 16,32 16,61 17,26 18,75 19,40 23,30 Banco de Dados 05.: Tempo de vida (em horas) de 40 componentes eletrônicos submetidos a um experimento em um laboratório industrial. 3,20 11,70 13,64 15,60 15,89 28,44 29,07 37,34 41,81 43,35 43,94 49,5149,82 51,20 51,43 52,47 53,72 53,92 54,03 56,89 63,80 66,40 68,64 70,15 70,98 74,52 76,68 77,84 80,91 84,04 85,70 86,48 88,92 89,28 91,36 91,62 98,79 102,39 104,21 124,27 1.4 – REPRESENTAÇÕES GRÁFICAS DAS DISTRIBUIÇÕES DE FREQÜÊNCIAS O gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo é o de produzir uma impressão rápida e viva do fenômeno em estudo já que os gráficos falam mais rápido do que as séries. Portanto, essa ferramenta tem como objetivo uma melhor visualização do conteúdo das tabelas, expondo sempre que possível, as mesmas informações nelas contidas. Para tornar possível uma representação gráfica deve-se estabelecer uma correspondência entre os termos da série e determinada figura geométrica, de tal modo que cada elemento da série seja representado por uma figura proporcional. A representação de um fenômeno deve obedecer aos seguintes requisitos: Profa. MSc. Gilmara Alves Cavalcanti Página 19 Simplicidade: indispensável devido à necessidade de levar a uma rápida apreensão do sentido geral do fenômeno a fim de não nos perdermos na observação de minúcias de importância secundária. Clareza: o gráfico deve possibilitar uma correta interpretação dos valores representativos do fenômeno em estudo. Veracidade: indispensável qualquer comentário, posto que, se não representa uma realidade, o gráfico perde sua finalidade. Os principais tipos de gráficos estatísticos para distribuições de freqüências são os “diagramas”, os quais são gráficos geométricos de, no máximo duas dimensões. Para sua construção, em geral, faze-se uso do sistema cartesiano. Os gráficos mais usados são: Diagrama de Linhas/Superfície Simples e em Faixa; Diagrama de Colunas/Barras Simples, Superpostas e Múltiplas; Diagrama de Setores em Círculo. Os gráficos devem conter título e escala. Dentre os principais tipos de diagramas destaca-se, segundo a variável em estudo: Variável Qualitativa: Diagrama de Colunas/Barras, Diagrama de Setores em Círculo. Variável Quantitativa: Discreta Diagrama de Colunas/Barras. Contínua Histograma, Polígono de Freqüências, Ogiva de Galton. 1.4.1 – DIAGRAMA DE LINHAS E DE SUPERFÍCIE Diagrama de Linhas/Superfície Simples: usado unicamente para representar séries temporais. Diagrama de Linhas/Superfície em Faixa: usado para comparar a evolução de duas variáveis e, ao mesmo tempo, a evolução de cada uma delas isoladamente. f f f f Tempo Tempo Tempo Tempo Diagrama de Diagrama de Diagrama de Diagrama de Linhas Simples Superfície Simples Linhas em Faixa Superfície em Faixa 1.4.2 – DIAGRAMA DE COLUNAS E DE BARRAS Diagrama de Colunas/Barras Simples: é a representação de uma série por meio de retângulos, dispostos horizontalmente (em barras) ou verticalmente (em colunas). É usado para apresentar variáveis qualitativas ou ordinais. As variações quantitativas da tabela são representadas pelas colunas dispostas verticalmente ou horizontalmente. É usado para representar qualquer tipo de série. Profa. MSc. Gilmara Alves Cavalcanti Página 20 Procedimento: 1) Traçar os eixos X e Y. 2) Eixo X (categorias da variável em estudo). 3) Construir barras retangulares. X (variável de estudo: categorias) base Y (freqüência ou freqüência relativa) altura OBS: (1) As barras são desenhadas separadamente, de forma a ficar claro que a variável é qualitativa ou ordinal. (2) Os gráficos de barras podem ser classificados em três tipos: Simples, Superpostas (Remontadas) ou Múltiplas. (3) Os espaços entre cada coluna (ou barra) devem ser iguais entre si, e corresponder a no mínimo 1/3 e no máximo 2/3, da medida da base. Diagrama de Colunas/Barras Superpostas e Múltiplas: usado para comparar o comportamento de duas ou mais variáveis (séries mistas). f f f Categorias Categorias Categorias Diagrama de Diagrama de Diagrama de Colunas Simples Colunas Múltiplas Colunas Superpostas OBS: Os Diagramas de Barras Simples, Múltiplas ou Superpostas obedecem ao mesmo critério, entretanto, os retângulos são construídos no sentido horizontal. 1.4.3 – DIAGRAMA DE SETORES EM CÍRCULO (GRÁFICO DE PIZZA) É o gráfico que representa as partes de um todo, por setores de um círculo, visando justamente comparar estas partes entre si em relação ao todo. É um círculo cuja área se divide em segmentos representativos das partes proporcionais de um todo. É usado para apresentar variáveis qualitativas ou ordinais. Procedimento: 1) Traçar uma circunferência (360º). 2) Representar as categorias da variável em estudo. Calcular o valor do ângulo central 100% - 360º x = (3,6).f % f % - x Legenda: Categoria 1 Categoria 2 Legenda: Categoria 1 Categoria 2 Categoria 3 Profa. MSc. Gilmara Alves Cavalcanti Página 21 x: valor do ângulo central; f %: frequência relativa; 3) Marcar no círculo o valor de x. 1.4.4 – HISTOGRAMA, POLÍGONO DE FREQÜÊNCIAS E OGIVA DE GALTON: são os gráficos representativos da distribuição de frequência em classes. É a representação por meio de retângulos justapostos, centrados nos pontos médios das classes e cujas áreas são proporcionais as frequências das classes. (a) Histograma Planejamento: 1. Largura (L): L = (espaço da origem - em cm) + (nº de classes).(distância da base cada retângulo - em cm) 2. Altura (H): H = (0,6).L 3. Medidas Gráficas (MG): 3.1 - MG = H / (maior valor de “f” na tabela) = constante 3.2 - MG = constante.(f1), constante.(f2), constante.(f3),......, constante.(fn) altura do primeiro retângulo (em cm) altura do segundo retângulo (em cm) .... f f Classes (b) Polígono de Freqüência ( ) Corresponde a uma linha poligonal traçada a partir do ponto médio de cada retângulo do histograma, cuja área total é igual a do histograma. Pode referir-se às freqüências absolutas ou às freqüências relativas, conforme a escala utilizada no eixo vertical. (c) Ogiva de Galton (Polígono de Freqüências Acumuladas) A Ogiva de Galton tem por finalidade a representação gráfica das tabelas de freqüências acumuladas. Esse tipo de gráfico pode ser utilizado para representar as freqüências “abaixo de” e “acima de”. Planejamento: 1. Largura (L): L = (espaço da origem - em cm) + (nº de classes).(distância da base cada retângulo - em cm) 2. Altura (H): H = (0,6).L Profa. MSc. Gilmara Alves Cavalcanti Página 22 3. Medidas Gráficas (MG): valores de F , F , F% ou F% .F F Classes Classes Ogiva de Galton das Freqüências Ogiva de Galton das Freqüências Acumuladas “Abaixo de” Acumuladas “Acima de” Exercícios: 1. Exercite a teoria desta unidade, através dos bancos de dados, construindo tabelas e gráficos. Banco de Dados A: Safra anual (em alqueires/árvore) para 40 pessegueiros. 11,1 4,4 10,7 14,8 3,5 12,5 6,1 15,8 22,6 16,2 32,4 27,5 25,0 16,0 14,5 7,8 32,8 18,2 19,1 3,2 21,0 18,5 12,2 7,4 8,1 16,4 16,4 12,6 9,2 12,9 1,2 15,1 4,7 10,0 19,1 22,3 6,0 23,5 26,2 13,7 Banco de Dados B: Nº de acidentes diários em um estacionamento, durante 50 dias. 6 9 2 7 0 8 2 5 4 2 6 4 4 4 4 2 5 6 3 7 3 8 8 4 4 4 7 7 6 5 4 7 5 3 7 1 3 8 0 6 5 1 2 3 6 0 5 6 6 3 Banco de Dados C: Classificação quanto ao aproveitamento de alunos em um curso. Classificação Fraca Razoável Média Boa Excelente Total Número 2 4 20 10 4 40 Banco de Dados D: Erros de impressão por página. 9 7 4 3 6 5 8 2 3 6 2 3 0 3 0 2 1 3 1 5 11 7 4 2 3 2 4 7 3 2 1 3 2 1 0 1 2 2 2 3 3 2 5 4 3 6 2 8 2 3 4 1 2 1 6 1 3 2 1 1 Profa. MSc. Gilmara Alves Cavalcanti Página 23 Banco de Dados E: Pluviosidade anual, nos últimos 50 anos, na comunidade de Ohio. 15,2 14,6 27,9 24,9 20,0 43,5 30,7 30,0 35,7 40,9 23,4 17,8 26,9 30,8 19,9 36,8 33,4 19,8 29,6 38,2 25,1 42,0 35,2 15,6 25,5 29,7 27,8 14,6 22,1 24,3 30,1 30,1 22,1 24,4 28,7 35,0 26,1 28,2 19,4 28,7 28,0 25,3 31,8 31,0 28,3 13,5 32,1 25,4 26,7 36,8 LISTA DE EXERCÍCIO 1.4 1. Construa, de forma adequada, todos os possíveis gráficos para cada uma das tabelas abaixo. (a) Tabela 01. Quantidade de chuva caída em Natal, em mm 3 , 1984-1993 Anos Quantidade de Chuva 1984 2.102 1985 2.224 1986 2.438 1987 1.478 1988 2.163 1989 1.155 1990 1.234 1991 1.359 1992 1.615 1993 852 Fonte: EMPARN (b) Tabela 02. Produção brasileira de trigo, por Unidade da Federação. 1994. UF Quantidade (1000 t) Sao Paulo 670 Santa Catarina 451 Paraná 550 Goiás 420 Rio de Janeiro 306 Rio Grande do Sul 560 Fonte: Fictícia (c) Tabela 03. Rebanho brasileiro. Espécie Quantidade (1000 cabeças) Bovinos 140.000 Suínos 1.181 Bubalinos 5.491 Coelhos 11.200 Fonte: IBGE (d) Tabela 04. Suicidas segundo o sexo, Brasil, 1996. Sexo f fr f % Masculino 3562 Feminino 1192 Fonte: IBGE (e) Tabela 05. Exportações brasileiras de produtos agrícolas. 1990 – 1992. Produto Quantidade (1000 t) 1990 1991 1992 Feijão 5.600 6.200 7.300 Arroz 8.600 9.600 10.210 Soja 4.000 5.000 6.000 Fonte: Ministério da Agricultura (f) Tabela 06. Estabelecimentos de saúde, públicos e particulares, por espécie. Brasil, 1985. Espécie Estabelecimentos Públicos Particulares Hospital 1.002 5.132 Pronto-Socorro 150 156 Policlínicas 1.531 6.136 Outros 14.393 472 Fonte: IBGE (g) Tabela 07. Taxas municipais de urbanização (em %). Alagoas, 1970. Taxas (%) Nº de Municípios 6 |-- 16 29 16 |-- 26 24 26 |-- 36 16 36 |-- 46 13 46 |-- 56 4 56 |-- 66 3 66 |-- 76 2 76 |-- 86 2 86 |--| 96 1 Total 94 Profa. MSc. Gilmara Alves Cavalcanti Página 24 1.5 – MEDIDAS DE POSIÇÃO (MEDIDAS DE TENDÊNCIA CENTRAL) Os dados quantitativos, apresentados em tabelas e gráficos, constituem a informação básica do problema. Mas é conveniente apresentar medidas que mostrem a informação de maneira resumida. Frequentemente, um conjunto de dados pode se reduzir a uma ou a algumas medidas numéricas que resumem todo o conjunto. Duas características importantes dos dados, que as medidas numéricas podem evidenciar são: o valor central do conjunto e a dispersão dos números. Vamos aprender o cálculo de medidas que possibilitem representar um conjunto de dados (valores de uma variável quantitativa, isto é, informações numéricas), relativos à observação de determinado fenômeno de forma reduzida. Estes índices estatísticos são as medidas de posição e, dentre as mais importantes, citamos as medidas de tendência central, que recebem tal denominação pelo fato dos dados observados tenderem, em geral, a se concentrar em torno de valores centrais. Dentre as medidas de tendência central destacamos: Média; Mediana; Moda; As outras medidas de posição são as: Separatrizes (as quais englobam a Mediana, os Quartis, os Decis e os Percentis) MEDIDAS DE TENDÊNCIA CENTRAL São medidas que tendem para o centro da distribuição e têm a capacidade de representá- la como um todo. Dão o valor do ponto em torno do qual os dados se distribuem. As principais são: Média Aritmética, Mediana, Moda. 1.5.1 – MÉDIA ARITMÉTICA (ou simplesmente MÉDIA) É a mais importante medida de tendência central, pois possui propriedades matemáticas convenientes. A média aritmética pode ser definida em dois tipos: populacional ( ) e amostral ( X ). Definição: (a) Dada uma população constituída de N elementos, X1, X2,..., XN, sua média denotada por , mede o valor médio do conjunto de dados, sendo expressa na mesma unidade de medida, e definida por: NN XXX N21 i X Média Populacional (b) Dada uma amostra constituída de n elementos, X1, X2,..., Xn, sua média denotada por X , mede o valor médio do conjunto de dados, sendo expressa na mesma unidade de medida, e definida por: nn XXX N21 i X X Média Amostral Profa. MSc. Gilmara Alves Cavalcanti Página 25 Exemplo: Determinar a média da amostra de valores, Xi: 3, 7, 8, 10 e 11. 8,7 5 1110873 n iX X Nos dois casos existem três situações quanto aos cálculos. 1. Dados apresentados em forma de dados brutos/rol: A média será: rol do elementos de número rol do elementos os todosde soma n X iX Exemplo 01: A média mínima para aprovação em determinada disciplina é 5,0. Se um estudante obtém as notas 7,5; 8,0; 3,5; 6,0; 2,5; 2,0; 5,5 e 4,0; nos trabalhos mensais da disciplina em questão, pergunta-se qual a nota média do estudante? Ele foi ou não aprovado? 2. Dados apresentados em forma de distribuição de frequência simples: Seja um conjunto de dados (uma amostra) constituída de n valores da variável X, isto é, X1, X2,..., Xk, ocorrendo com respectivas frequências f1, f2,..., fk, de modo que nf i . A média: n ).f(X X ii Exemplo 02: Calcular a média do banco de dados 01 (tópico 1.3) e analisar o resultado. Exemplo: determinar a média do seguinte conjunto de valores, Xi: 2, 3, 8, 8, 5, 2, 2, 2, 8, 5, 3, 8, 2, 2, 5, 8, 2, 5, 8 e 2 Xi fi Xi.fi 2 8 16 3 2 6 5 4 20 8 6 48 Total 20 90 3. Dados apresentados em forma de distribuição de frequência em classes: A média: n ).f(PM X ii Exemplo 03: Calcular a média do banco de dados 02 (tópico 1.3) e analisar o resultado. Propriedades:1. Em um conjunto de números pode sempre ser calculada; 2. É única para um dado conjunto de números; 3. É sensível (ou afetada) por todos os valores do conjunto; 4. Somando-se uma constante a cada valor do conjunto, a média ficará aumentada do valor dessa constante. Similarmente se subtrairmos, multiplicarmos ou dividirmos. 5. A soma dos desvios dos números de um conjunto a contar da média é zero; A média nesse caso será: 5,4 20 90).f(X X ii n Profa. MSc. Gilmara Alves Cavalcanti Página 26 Vantagens e Desvantagens: 1. É uma medida que por uniformizar os valores de um conjunto de dados, não representa bem os conjuntos que revelam tendências extremas. Isto é, é grandemente influenciada pelos valores extremos (grandes) do conjunto; 2. Não pode ser calculada para distribuições de freqüências com limites indeterminados (indefinidos); 3. É facilmente calculável, além de ser a medida mais conhecida e utilizada; 4. Serve para compararmos conjuntos semelhantes e pode ser tratada algebricamente; 1.5.2 – MEDIANA (Med) Valor que divide a distribuição em duas partes iguais, em relação à quantidade de elementos. Isto é, é o valor que ocupa o centro da distribuição, de onde se conclui que 50% dos elementos ficam abaixo dela e 50% ficam acima. Colocados em ordem crescente (rol), a mediana (Med ou Md) é ou valor que divide a amostra, ou população, em duas partes iguais. 0 Med 100% a) VARIÁVEL DISCRETA: os dados estão dispostos em forma de rol ou em uma distribuição de freqüência simples. Se "n" for ímpar: Med = elemento central (de ordem [(n + 1)/2]º) 0 2 1 n Med Exemplo: Calcular a mediana da série: 5, 8, 2, 3, 9, 11, 13. Rol: 2, 3, 5, 8, 9, 11, 13. n = 7 (ímpar) 84 2 17 0 0 Med Exemplo 04: Calcular a mediana da série: 3, 4, 5, 6, 7. Se "n" for par: Med = média aritmética dos dois elementos 2 1 2 n 2 n Med 00 centrais (de ordem (n/2)º e [(n/2) + 1]º) Exemplo: Calcular a mediana da série: 5, 8, 2, 3, 9, 11, 13, 15. Rol: 2, 3, 5, 8, 9, 11, 13, 15. n = 8 (par) 5,8 2 98 2 54 2 1 22 00 00 nn Med Exemplo 05: Calcular a mediana da série: 8, 5, 10, 12. Exemplo 06: Calcular a mediana do banco de dados 01 (tópico 1.3) e analisar o resultado. Profa. MSc. Gilmara Alves Cavalcanti Página 27 b) VARIÁVEL CONTÍNUA: os dados estão agrupados em uma distribuição de frequências em classes, então: (1º Passo) Calcular a ordem, ou posição da mediana, PMed = (n/2)º. Como a variável é contínua não importa se “n” é par ou ímpar. (2º Passo) Através da F identificar a classe que contém a mediana, isto é, a posição da mediana. (3º Passo) Utilizar a fórmula: Med Med Med Med .i f FP LIMed LIMed = limite inferior da classe que contém a mediana; PMed = posição da mediana = 2 f = xº elemento (lê-se: x-ésimo elemento); -F = frequência absoluta acumulada "abaixo de" da classe anterior à classe que contém a mediana; fMed = frequência absoluta da classe que contém a mediana; iMed = intervalo da classe que contém a mediana; Exemplo 07: Calcular a mediana do banco de dados 02 (tópico 1.3) e analisar o resultado. Propriedades: 1. A mediana não é influenciada por valores extremos (grandes) de uma série ou conjunto de dados; 2. A mediana de uma série de dados agrupados de classes extremas indefinidas pode ser calculada; 1.5.3 – MODA Definição: Dado um conjunto de valores, a moda, denotada por Mo, é o valor que ocorre com maior frequência, ou seja, aquele que mais se repete. O valor mais frequente do conjunto de dados. Exemplo: Na série 3, 4, 5, 7, 7, 7, 9, 9 Mo = 7 Tipos de Séries Modais: Série Unimodal (tem uma única moda). Exemplo: Série 3, 5, 6, 6, 6, 7, 8 Mo = ? Série Bimodal (ocorrem duas modas). Exemplo: Série 2, 5, 5, 5, 6, 7, 9, 9, 9, 10, 10 Mo = ? Série Trimodal (ocorrem três modas). Exemplo: Série 4, 4, 4, 5, 6, 7, 7, 7, 8, 9, 9, 9 Mo = ? Série Polimodal (ocorrem quatro ou mais modas). Exemplo: Série 0, 0, 1, 3, 3, 4, 7, 8, 8, 11, 12, 12, 13, 13 Mo = ? Profa. MSc. Gilmara Alves Cavalcanti Página 28 Série Amodal (não existe moda). Exemplo: Série 0, 1, 3, 4, 7, 8 Mo = ? a) VARIÁVEL DISCRETA: os dados são apresentados em forma de rol ou em uma distribuição de frequência simples. Mo = elemento que tenha maior frequência Exemplo 08: Calcular a moda do banco de dados 01 e analisar o resultado. b) VARIÁVEL CONTÍNUA: os dados são apresentados em uma distribuição de frequência em classes. Nesse caso, a moda pode ser determinada através de quatro processos. 1. Moda Bruta (MoB) Corresponde ao ponto médio da classe modal, ou seja, MoB = (LI + LS)/2 2. Moda de Pearson (MoP) Utilizada mais especificamente, juntamente com X e Med, para mostrar o comportamento da distribuição, em relação a concentração ou não de seus elementos. X2. -3.MedMoP Utiliza-se a MoP para a análise da assimetria. A distribuição pode ser classificada, em termo de simetria, de três formas: Assimetria à esquerda: oPMMedX (concentração à direita ou nos valores maiores) Assimetria à direita: XMedMoP (concentração à esquerda ou nos valores menores) Simétrica: XMedMoP (concentração no centro) 3. Moda de King (MoK) Mo postant post MooK .i ff f LIM LIMo = limite inferior da classe modal; fpost = frequência absoluta da classe posterior à classe modal; fant = frequência absoluta da classe anterior à classe modal; iMo = LS – LI = intervalo da classe modal; Profa. MSc. Gilmara Alves Cavalcanti Página 29 4. Moda de Czuber (MoC): Mo 21 1 MooC .i dd d LIM onde postmáx2 antmáx1 ffd ffd Exemplo 09: Calcular, para os quatro processos descritos anteriormente, a moda do banco de dados 02 e analisar o resultado. Vantagens e Desvantagens: 1. Não depende de todos os valores do conjunto de dados, podendo mesmo não se alterar com a modificação de alguns deles; 2. Não é influenciada por valores extremos (grandes) do conjunto de dados; 3. Pode ser calculada para distribuições com limites indeterminados (indefinidos) na maioria dos casos; Medidas Vantagens Limitações Média 1. Reflete cada valor 1. É influenciada por valores extremos 2. Possui propriedades matemáticas atraentes Mediana 1. Menos sensível que a média 1. Difícil determinar para grandes quantidades de dados Moda 1. Valor típico: maior quantidade de valores concentrados neste ponto 1. Não se presta a análise matemática 2. Pode não ser moda para certos conjuntos de dados MEDIDAS DE POSIÇÃO 1.5.4 – SEPARATRIZES São valores que dividem a distribuição em partes iguais. Essas medidas são utilizadas para se conhecer, com precisão, a distribuição dos dados como um todo. Mediana (Med): divide a distribuição em duas partes iguais. Quartis (Q1, Q2, Q3): dividem a distribuição em quatro partes iguais. Decis (D1, D2,..., D9): dividem a distribuição em dez partes iguais. Percentis (P1, P2,..., P99): dividem a distribuição em cem partes iguais. Cálculo da Posição das Separatrizes (PSep): 1) Mediana: 2 f PMed ; 3) Decis: 10 )f.(x P xD , x = 1, 2,..., 9; 2) Quartis: 4 )f.(x P xQ , x = 1, 2, 3; 4) Percentis: 100 )f.(x P xP , x = 1, 2,..., 99; a) VARIÁVEL DISCRETA: uma vez que a posição da separatriz está definida (conforme os cálculos acima demonstrados) podemos encontrar a referida medida com a ajuda da frequência absoluta acumulada “abaixo de” (F ) disposta na distribuição de frequências simples. O valor da separatriz desejada corresponde ao elemento que se encontra na coluna da variável em estudo (“coluna indicadora”). Profa. MSc. Gilmara Alves Cavalcanti Página 30 Exemplo 10: Calcular Q1, D6 e P90 do banco de dados 01. b) VARIÁVEL CONTÍNUA: o cálculo de uma separatriz para uma variável disposta em uma distribuição de frequência em classes é similar ao cálculo da mediana quando se tem uma distribuição de frequência em classes. De forma mais detalhada o procedimento é realizado através dos seguintes passos: (1º Passo) Calcular a posição da separatriz conforme o “cálculo da posição das separatrizes”. Como a variável é contínua não importa se “n” (tamanho da amostra) é par ou ímpar. (2º Passo) Através da F identificar a classe que contém a separatriz, isto é, a posição da separatriz. (3º Passo) Utilizar a fórmula: Sep Sep Sep Sep .i f FP LISeparatriz OBS: A nomenclatura “Separatriz ou Sep” da fórmula acima deve ser substituída pela separatriz a ser determinada. Exemplo 11: Calcular Q3, D3 e P10 do banco de dados 02. Interpretação das Separatrizes: Mediana Quartis Decis Percentis 50% 25% 10% D9 1% P99 Q3 10% D8 1% P98 25% 10% D7 1% P97 . . . Med Q2 . . P80 50% 25% . . . . . . Q1 10% D3 1% P3 25% 10% D2 1% P2 10% D1 1% P1 Q1: 25% dos elementos apresentam no máximo o valor de Q1, enquanto que, 75% deles apresentam no mínimo o valor de Q1. Q3: 75% dos elementos apresentam no máximo o valor de Q3, enquanto que, 25% deles apresentam no mínimo o valor de Q3. D8: 80% dos elementos apresentam no máximo o valor de D8, enquanto que, 20% deles apresentam no mínimo o valor de D8. Profa. MSc. Gilmara Alves Cavalcanti Página 31 Exercícios de Aplicação: Com base nas tabelas a seguir determine: Média, Mediana, Moda, Q1, D4 e P80. Analise os resultados. Tabela 01 – Notas de alunos. Natal, 2000. Notas Nº de Alunos 4 1 5 5 6 6 7 5 8 3 Total 20 Fonte: Livro de Estatística. Tabela 02 – Idade de clientes. Natal, 2004. Classes F 10 |-- 20 5 20 |-- 30 10 30 |-- 40 15 40 |-- 50 10 50 |--| 60 5 Total 45 Fonte: Livro de Estatística. Tabela 03 – Número de faltas em um mês de aula dos alunos. Natal, 2005. X f 1 1 2 3 3 5 4 2 Total Fonte: Livro de Estatística. Tabela 04 – Pesos de pacientes (em kg). Natal, 2005. X f 82 5 85 10 87 15 89 8 90 4 Total Fonte: Livro de Estatística. Profa. MSc. Gilmara Alves Cavalcanti Página 32 LISTA DE EXERCÍCIO 1.5 1. Uma amostra de 30 embalagens plásticas de mel foi pesada com precisão de decigramas. Os pesos, após convenientemente agrupados, forneceram a seguinte distribuição de frequências: X f 31,5 1 32,5 5 33,5 11 34,5 8 35,5 3 36,5 2 Total 30 Calcule as medidas a seguir e analise os resultados encontrados. a) Média; b) Mediana; c) Moda; d) Q1; e) Q3; f) D6; g) P30 h) P78; 2. Um certo índice econômico foi determinado para um conjunto de n empresas. Os resultados são dados a seguir: Classes f 1,00 |-- 1,07 14 1,07 |-- 1,14 22 1,14 |-- 1,21 16 1,21 |-- 1,28 13 1,28 |-- 1,35 7 1,35 |-- 1,42 3 1,42 |-- 1,49 4 1,49 |--| 1,56 1 Total 80 Calcule as medidas a seguir e analise os resultados encontrados. a) Média; b) Mediana; c) Moda de Pearson; d) Moda Bruta; e) Moda de Czuber; f) Moda de King; g) Q1; h) P62; i) D8; Profa. MSc. Gilmara Alves Cavalcanti Página 33 1.6 – MEDIDAS DE DISPERSÃO Medem o grau de variabilidade ou "espalhamento" dos elementos de uma distribuição. Medir a variabilidade é verificar se tais observações se concentram mais para um lado ou outro da curva (Histograma) ou se dispõem simetricamente em torno de um valor central (geralmente a média). O valor zero indica ausência de dispersão; a dispersão aumenta à medida que aumenta o valor da medida. Imagine a seguinte situação: Tabela – Notas de alunos em cinco avaliações. Natal, 2004. Alunos Notas Média Antônio 5 5 5 5 5 5 João 6 4 5 4 6 5 José 10 5 5 5 0 5 Pedro 10 10 5 0 0 5 Observa-se que: a) As notas de Antônio não variaram; b) As notas de João variaram menos do que as notas de José; c) As notas de Pedro variaram mais do que as notas de todos os outros alunos; Para representar cada aluno é possível calcular a respectiva nota média. Nesse caso, 5 PedroJoséJoãoAntônio XXXX . Vemos que apesar de constituídos de valores diferentes os alunos revelam uma mesma nota média. Observando mais detalhadamente, nota-se que para cada aluno os valores se distribuem diferentemente em relação à média. Necessitamos assim de uma medida estatística complementar para melhor caracterizar cada aluno. Estas observações são verificadas através das medidas de dispersão. As principais são: Amplitude, Variância, Desvio Padrão, Desvio Médio e Coeficiente de Variação. Em princípio é possível afirmar que entre dois ou mais conjuntos de dados, o mais disperso (ou menos homogêneo) é aquele que tem a maior medida de dispersão. 1.6.1 – AMPLITUDE Dá uma idéia do campo de variação dos elementos. A = Xmáx – Xmín Exemplo 01: Na tabela acima: AAntônio = ?; AJoão = ?; AJosé = ?; APedro = ? Através da amplitude verifica-se que as notas de Antônio não variaram, enquanto que, as de João variaram menos que as de José. Além disso, observa-se que não houve variação entre as notas de José e Pedro. OBS: A amplitude, enquanto medida de dispersão, não mede bem a variabilidade dos dados porque, usam-se apenas os valores extremos, e não todos os elementos da distribuição. Apesar disso, é muito utilizada como medida de dispersão por ser fácil de calcular e de interpretar. Profa. MSc. Gilmara Alves Cavalcanti Página 34 1.6.2 – VARIÂNCIA É a medida de dispersão mais utilizada. É o quociente entre a soma dos quadrados dos desvios e o número de elementos. Mede a variabilidade do conjunto em termos de desvios quadrados em relação a média do conjunto. É uma quantidade sempre não negativa e expressa em unidades quadradas do conjunto de dados. É classificada em dois tipos: 1. Variância Populacional ( 2 ): 2. Variância Amostral ( 2s ): N X i 2 2 )( 1n )XX( s 2 i2 Exemplo: Determinar a variância da amostra de valores, Xi: 2, 3, 5, 7 e 8. 5,6 15 )58()57()55()53()52( 1-n )( 222222 2 XX s i No caso de dados agrupados em uma distribuição de frequências simples ou em classes, a variância pode ser definida como: 1. Variância Populacional ( 2 ): 2. Variância Amostral ( 2s ): N fX ii .)( 2 2 1n f.)XX( s i 2 i2 onde Xi representa o valor de cada observação (no caso de uma tabela simples), ou o ponto médio (PMi) (no caso dos dados agrupados em uma distribuição de frequências em classes). ATENÇÃO: A variância apresenta unidade de medida igual ao quadrado da unidade de medida dos dados. Por exemplo, se os dados estão em metros (m), o valor da variância encontrado corresponde a metros quadrados (m 2 ). SOLUÇÃO: utilizar o desvio padrão como unidade de medida dos dados. 1.6.3 – DESVIO PADRÃO Medida de dispersão que apresenta as mesmas propriedades da variância, exceto que, o resultado final corresponde à mesma unidade de medidas dos dados. É definido como sendo a raiz quadrada da variância. Mede a dispersão absoluta de um conjunto de valores. 1. Desvio Padrão Populacional ( ): 2. Desvio Padrão Amostral ( s ): N X i 2 2 )( 1n )XX( ss 2 i2 Profa. MSc. Gilmara Alves Cavalcanti Página 35 Exemplo: Determinar o desvio padrão da amostra de valores acima, Xi: 2, 3, 5, 7 e 8. 55,25,62 ss No caso de dados agrupados em uma distribuição de frequências simples ou em classes: 1. Desvio Padrão Populacional ( ): N fX ii .)( 2 2. Desvio Padrão Amostral ( s ): 1n f.)XX( s i 2 i onde Xi representa o valor de cada observação (no caso de uma distribuição de frequência simples), ou o ponto médio (no caso de uma distribuição de frequência em classes). Exemplo 02: Calcular o desvio padrão da Tabela (Notas dos alunos em cinco avaliações). Exemplo 03: Calcular o desvio padrão do banco de dados 01. Exemplo 04: Calcular o desvio padrão do banco de dados 02. 1.6.4 – COEFICIENTE DE VARIAÇÃO (CV) O coeficiente de variação é a razão entre o desvio padrão e a média. O resultado é multiplicado por 100, para que o coeficiente de variação seja dado em porcentagem. 1. CV Populacional: 2. CV Amostral: 100. CV 100. X s CV OBS2: Quando as medidas são expressas em unidades diferentes como peso/atura, capacidade/comprimento, etc., não se pode compará-las através do desvio padrão, por este ser uma medida absoluta de variabilidade. Utiliza-se então o CV, que é uma medida relativa que expressa o desvio padrão como uma porcentagem da média aritmética. Quanto mais próximo de zero, mais homogênea é a distribuição. Quanto mais distante, mais dispersa. Exemplo 05: Calcular o coeficiente de variação do banco de dados 01. Exemplo 06: Calcular o coeficiente de variação do banco de dados 02. OBS: Quanto maior o valor do desvio padrão significa que mais dispersos estão os elementos em torno da média. OBS1: Um CV alto indica que a dispersão dos dados em torno da média é muito grande. Profa. MSc. Gilmara Alves Cavalcanti Página 36 Exercícios de Aplicação: 1. Calcule a variância, o desvio padrão e o CV dos exercícios do tópico 1.4, Página 28, (Tabela 01, Tabela 02, Tabela 03 e Tabela 04). 2. Um teste de Estatística aplicado a dois grupos de 50 alunos apresentou os resultados a seguir. Calcule o coeficiente de variação (CV) e analise os resultados. Grupo Notas X s A 6 2 B 6,2 1,5 3. Dada a distribuição de salários abaixo, determinar as medidas de tendência central e as de dispersão. Salários Frequências 20 |-- 25 10 25 |-- 30 15 30 |-- 35 20 35 |-- 40 18 40 |--| 45 4 4. Uma amostra de 30 embalagens plásticas de mel foi pesada com precisão de decigramas. Os pesos, após convenientemente agrupados, forneceram a seguinte distribuição de frequências: X f 31,5 1 32,5 5 33,5 11 34,5 8 35,5 3 36,5 2 Total 30 Calcule as medidas a seguir e analise os resultados encontrados. a) Variância b) Desvio Padrão c) CV SOLUÇÃO Profa. MSc. Gilmara Alves Cavalcanti Página 37 LISTA DE EXERCÍCIO 1.6 PARTE 01 – Identifique situações que sejam adequadas às tabelas a seguir, de forma que todos os seus componentes sejam determinados. PARTE 02 – Calcule, para cada caso, as medidas a seguir e analise os resultados encontrados. MEDIDAS DE TENDÊNCIA CENTRAL MEDIDAS DE DISPERSÃO (a) Média (h) Q1 (b) Mediana (i) D6 (c) Moda (j) P90 (d) Moda de Pearson (k) Variância (e) Moda de King (l) Desvio padrão (f) Moda de Czuber (m) Coeficiente de Variação Tabela 01. X f 10 3 11 5 15 9 19 10 21 2 26 1 Total 30 Tabela 02. Classes f 10 |-- 12 5 12 |-- 14 10 14 |-- 16 17 16 |-- 18 19 18 |-- 20 11 20 |-- 22 4 22 |-- 24 6 24 |--| 26 1 Total 73
Compartilhar