Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIDADE 01 Conceitos básicos e distribuição de frequência SUMÁRIO 1 – Uma breve história sobre a origem da Estatística ................................ 3 2 – Tipos de estudos em estatística .......................................................... 4 3 – Conceitos básicos ............................................................................... 6 3.1 - Definição de população, amostra, parâmetro e estatística. ............................................. 7 3.2 - Classificação das variáveis ............................................................................................... 8 4 – Técnicas de amostragem .................................................................. 10 4.1 - Introdução ....................................................................................................................... 10 4.2 – Amostra representativa .................................................................................................. 11 4.3 – Dimensionamento do tamanho da amostra ................................................................... 12 4.4 - Técnicas de amostragem ............................................................................................... 14 4.4.1 - Técnicas de amostragem probabilística .................................................................. 14 4.4.2 - Técnicas de amostragem não probabilística ........................................................... 21 5 - Distribuição de frequência ................................................................. 22 5.1 – Introdução ...................................................................................................................... 22 5.2 – Séries estatísticas .......................................................................................................... 23 5.3 – Tabulação dos dados ..................................................................................................... 26 5.3.1 - Tabulação para variável qualitativa ......................................................................... 27 5.3.2 – Tabulação para variável quantitativa ...................................................................... 29 5.2 – Outros gráficos ............................................................................................................... 35 6. Anexo ................................................................................................ 42 6.1 Gerando números aleatórios usando o Excel. .................................................................. 42 Unidade 01 Introdução à Estatística 3 prof. José Aguinaldo 1 – Uma breve história sobre a origem da Estatística Embora a palavra Estatística ainda não existisse, há indícios de que os povos da antiguidade já utilizavam a estatística ao fazerem levantamentos de seus habitantes e das propriedades e riquezas dos mesmos. Alguns desses levantamentos tinham propósitos militares e outros com fins tributários. Esses levantamentos são chamamos hoje de censo, que é uma palavra derivada do Latim censere (taxar). A palavra estatística também deriva do Latim status que significa estado. Na própria Bíblia encontramos registros do recenseamento. No quarto livro do Antigo Testamento, Deus ordena a Moisés no deserto do Monte Sinai o levantamento dos homens de Israel que estivessem aptos para a guerra. “Fazei um recenseamento completo da comunidade dos filhos de Israel: todos os homens, um a um, conforme os clãs e famílias, registrando seus nomes. Você e Aarão registrarão, por esquadrões, todos os homens maiores de vinte anos e capacitados para a guerra. ” (Bíblia Sagrada, Números, 1, 2-3). No Novo Testamento (Lucas, 2, 1-7), o imperador César Augusto publicou um decreto ordenando o recenseamento de todo o império. A intenção do imperador era saber quantas pessoas deviam pagar o tributo na época. Em 1085, Guilherme, o Conquistador, ordenou que se fizesse um levantamento estatístico na Inglaterra. Esse levantamento deveria incluir informações sobre as propriedades e riquezas de seus conquistados, a fim de servir de base para cálculos de impostos. Tal levantamento originou um volume intitulado de “Domesday book”. Devemos também mencionar o reconhecimento por parte da Igreja Católica Romana da importância dos registros de batismos, casamentos e óbitos, tornados obrigatórios a partir do Concílio de Trento (1545 – 1563). No século XVII, a estatística ganhou destaque na Inglaterra, a partir das tábuas de mortalidade de John Graunt (1620-1674), que consistiu de exaustivas análises de nascimentos e mortes. Dessas análises resultou a conclusão entre outras, de que a porcentagem de nascimentos de crianças do sexo masculino era ligeiramente superior à de crianças do sexo feminino, mas havia distribuição aproximadamente igual de ambos os sexos na população geral. A palavra Estatística, enquanto ciência voltada para análise de dados foi cunhada pelo acadêmico alemão Gottfried Achenwall (1719-1772), professor da Universidade de Göttingen. O verbete “Statistics” (estatística, em inglês) apareceu na enciclopédia Britânica em 1797. Atualmente, as pessoas associam a palavra estatística a quaisquer resultados numéricos, apresentados em tabelas ou em gráficos, referentes a fatos demográficos ou econômicos publicados por agências governamentais ou mesmo oriundos de pesquisas feitas por empresas de pesquisas de mercado. Esse conceito popular sobre estatística está, entretanto, longe de ser o que de fato entendemos por Estatística nos dias de hoje. Em seu papel fundamental, a Estatística deve ser vista como o estudo de como chegar a conclusões sobre o todo (população de interesse), partindo da observação de uma parte (amostra) desse todo. A Estatística é vista, portanto, como um conjunto de métodos (métodos estatísticos), especialmente apropriado ao tratamento de dados numéricos. Como é de se esperar, a Estatística faz grande uso da Matemática, principalmente nos cálculos de probabilidades. Breve História da Estatística – José Maria Pompeu Memória - Embrapa www.im.ufrj.br/~lpbraga/prob1/historia_estatistica.pdf Cronologia de alguns conceitos e fatos importantes da Estatística – Gauss - ABE http://www.redeabe.org.br/cronologia022006.doc Unidade 01 Introdução à Estatística 4 prof. José Aguinaldo 2 – Tipos de estudos em estatística Para que os resultados de uma análise estatística de dados produzam informações úteis, os dados precisam ser coletados de forma planejada. Caso os dados não sejam coletados de maneira apropriada, por mais que a análise estatística seja bem elaborada, os resultados obtidos de nada servirão. Em função do problema e dos objetivos da pesquisa, devemos decidir entre dois tipos de estudo: estudo observacional ou estudo experimental. a) Estudo experimental Nas pesquisas experimentais, grupos de indivíduos (ou animais, ou objetos) são manipulados para se avaliar o efeito de diferentes tratamentos. É o caso de se verificar o efeito de um novo remédio, onde um grupo de pacientes recebe o tratamento (remédio), enquanto um segundo grupo recebe o placebo, que é bem parecido com o remédio, mas sem qualquer efeito. No caso de alguma melhora nos pacientes, espera-se que seja devida ao tratamento do remédio. b) Estudo observacional (método estatístico) Em uma pesquisa observacional (ou de levantamento) as características de uma população são levantadas (observadas ou medidas) sem qualquer manipulação por parte do pesquisador. É o caso de um censo demográfico, pesquisas eleitorais, pesquisas de mercado, inspeção da qualidade,etc. Em todos esses casos queremos ter ideia de certa população tal qual ela é na natureza ou no processo. Abaixo está um pequeno resumo das fases que devem ser empregadas no método estatístico. Fases do método estatístico (estudo observacional) Em um estudo estatístico, existem diversas fases do trabalho que devem ser desenvolvidas para se chegar aos resultados finais do estudo. As fases principais do método estatístico são as seguintes: Definição do problema Planejamento Coleta dos dados Apuração dos dados Apresentação dos dados Análise e interpretação de dados Definição do problema A primeira fase do trabalho estatístico consiste em uma determinação ou formulação correta do problema a ser estudado. Saber exatamente aquilo que se pretende pesquisar é o mesmo que definir corretamente o problema. Unidade 01 Introdução à Estatística 5 prof. José Aguinaldo Planejamento Após a definição correta do problema, passamos para a fase de planejamento, que consiste em se determinar o procedimento necessário para resolver o problema e, em especial, como levantar informações sobre o assunto objeto do estudo. É a etapa onde devem ser decididos: Quais dados a serem utilizados e como obtê-los. Decidir qual o tipo de instrumento de coleta de dados a ser utilizado (se será um questionário ou não). Independente do instrumento de coleta de dados, as perguntas deverão ser formuladas corretamente. Para saber mais sobre a construção de questionários, leia o artigo “O Questionário na Pesquisa Científica” do professor Anivaldo T. R. Chagas disponível no link abaixo: http://www.fecap.br/adm_online/art11/anival.htm Decidir o tipo de levantamento a ser utilizado (censo ou amostragem) Delineamento do plano amostral (caso opte pela amostragem) Definição do cronograma das atividades bem como os custos envolvidos. Coleta dos dados Esta etapa é essencialmente operacional, compreendendo a coleta das informações propriamente ditas. Formalmente, a coleta de dados se refere à obtenção, reunião e registro sistemático de dados, com um objetivo determinado. Nesta etapa, a empresa deverá decidir se deve recorrer aos seus registros internos (registros contábeis, vendas, cadastro de clientes, etc) ou se deve recorrer a fontes externas para obter as informações desejadas. Apuração dos dados Esta etapa consiste em resumir os dados, através de sua contagem e agrupamento. É propriamente o trabalho de tabulação dos dados, que chegam ao analista de forma desorganizada, tornando impossível a tarefa de compreender o seu significado pela simples leitura. Apresentação dos dados Nessa etapa, o pesquisador procura apresentar ou expor os dados através de tabelas e/ou gráficos. Análise e interpretação dos dados A última fase do trabalho estatístico é a mais importante e também a mais delicada. Nesta etapa, o interesse maior reside em tirar conclusões que auxiliem o pesquisador a resolver seu problema. Unidade 01 Introdução à Estatística 6 prof. José Aguinaldo 3 – Conceitos básicos Em qualquer análise estatística, devemos ter em mente que sempre haverá variabilidade nos dados analisados. A Estatística usa métodos para nos ajudar a entender melhor a variabilidade e procurar a existência de certos padrões na população de onde os dados foram amostrados. Portanto, no momento de se tomar uma decisão, devemos sempre se lembrar da variabilidade inerente aos dados. Considere duas máquinas (A e B) de empacotar café em pacotes de 500 gramas. Se houver uma tendência de os pacotes estarem com peso acima de 500 gramas, os clientes não irão reclamar, mas a empresa estará tendo prejuízo. Por outro lado, se houver uma tendência de os pacotes estarem com peso abaixo de 500 gramas, a empresa corre o risco de ser processada pelos clientes. Então, uma das preocupações é manter o processo de empacotamento sob controle, de forma que os pacotes tenham um peso médio de 500 gramas. Como exemplo, suponha que uma amostra de pacotes retiradas da máquina X resultou em um peso médio de 499 gramas e que uma amostra de pacotes retiradas da máquina Y resultou em um peso médio de 480 gramas. Você acredita que o processo esteja sob controle em ambas as máquinas? Ou alguma máquina deveria ser parada para se os ajustes? Para tomar a decisão de que o processo esteja fora ou não de controle uma análise estatística mais apurada deveria ser feita, mas a julgar pelo peso médio apresentado pela máquina Y é bem provável que o processo não esteja sob controle, visto que a diferença de 20 gramas (= 500 – 480) é uma diferença que não deve ser desprezada. Quanto a máquina X, a princípio podemos acreditar que esta máquina esteja empacotando os pacotes de café com um peso médio de 500 gramas, como era esperado, já que a diferença de 1 grama (= 500 – 499) pode ser considerada uma diferença não significativa. Mas, como na estatística, a variabilidade dos dados deve ser sempre levados em consideração, a máquina X também poderia não estar sob controle se os dados apresentassem uma grande variabilidade, como mostrado no gráfico de pontos abaixo, onde cada ponto representa o peso de um pacote de café selecionado. Visão geral da Estatística “Probabilidades e Estatística” - Paulo Afonso Lopes Unidade 01 Introdução à Estatística 7 prof. José Aguinaldo 3.1 - Definição de população, amostra, parâmetro e estatística. População - Conjunto de todos os elementos que compartilham uma ou mais características (variáveis) de interesse. O tamanho da população é normalmente representado pela letra N (ene maiúsculo) Amostra - Consiste de um pequeno grupo de elementos retirados da população. O tamanho da amostra é representado pela letra n (ene minúsculo) “... a rede estadual registrou, em 1998, um total de 6.024.166 alunos matriculados. Uma amostra de 2.500 alunos foi retirada dessa listagem...” N = 6.024.166 alunos e n = 2.500 alunos Parâmetro - Uma medida numérica que descreve uma característica da população. Estatística - Uma medida numérica que descreve uma característica de uma amostra. Para denotar um parâmetro geralmente usamos como símbolo as letras gregas (, , 2, etc) e as letras latinas para denotar as estatísticas ( x , s , s2, etc). Os parâmetros são, na maior parte das vezes, valores desconhecidos e as estatísticas são usadas como estimativas desses parâmetros. Uma pesquisa de opinião foi realizada em certo país com o objetivo de avaliar a preferência dos eleitores na próxima eleição. Este país tem um total de 126 milhões de eleitores e, para este estudo, foi selecionada uma amostra aleatória de 2500 eleitores. Após analisar os dados desta amostra, 48% dos entrevistados disseram que pretendem votar no candidato X. Do que foi exposto acima, temos: População N = 126 milhões de eleitores Amostra N = 2500 eleitores escolhidos Parâmetro de interesse proporção de eleitores na população que pretendem votar no candidato X Estatística 48% dos eleitores na amostra que preferem o candidato X Como a amostra foi feita de forma aleatória, podemos assumir que o valor 48% é uma “boa estimativa” do parâmetro de interesse. População de N elementos = média populacional = desvio-padrão populacional 2 = variância populacionalAmostra de n elementos = média amostral s = desvio-padrão amostral s2 = variância amostral = mediana amostral Inferência (generalização) Unidade 01 Introdução à Estatística 8 prof. José Aguinaldo 3.2 - Classificação das variáveis O procedimento estatístico a ser aplicado dependerá da natureza (qualitativa ou quantitativa) das variáveis usadas. Variável Qualitativa É uma variável, onde os dados obtidos são não numéricos e são usados para representar atributos, categorias, nomes, ou qualidades. Podem ser subdivididas em nominal e ordinal. Qualitativa nominal: Neste tipo de variável, os dados obtidos não podem e nem tem sentido a ordenação. Exemplo: Sexo (M ou F) e Cor dos olhos (preto, verde, azul). Qualitativa ordinal: Neste tipo de variável, os dados obtidos podem ser ordenados por alguma ordem natural. Exemplo: Avaliação de um produto (regular, bom, ótimo) e Tamanho de roupa (P, M G). Variável Quantitativa É uma variável, onde os dados obtidos são numéricos e podem ser usados para uma contagem ou uma mensuração. Podem ser subdivididas em discreta e contínua. Quantitativa discreta: Neste tipo de variável, os dados vêm de contagem, portanto só pode assumir valores discretos (inteiros). Os dados pertencem ao conjunto de números naturais. Exemplo: Quantidade de peças com defeito (0, 1, 2, ...), número de acidentes em uma empresa (0, 1, 2, ...), etc. Quantitativa contínua: Neste tipo de variável, os dados vêm de uma mensuração, podendo, portanto, assumir quaisquer valores (inteiros ou não) dentro de um intervalo de valores. Os dados pertencem ao conjunto de números reais. Exemplo: Salário dos funcionários, Produto Interno Bruto de uma país, etc Uma mesma variável pode ter várias classificações dependendo da sua escala de medida. Por exemplo, vamos considerar as variáveis idade e peso. Idade de uma pessoa Idade em anos (propriamente dita) Quantitativa continua Idade em anos completos Quantitativa discreta Faixa etária (< 20 anos, de 20 a 30 anos, > 30 anos) Qualitativa ordinal Peso de um lutador de boxe Peso obtido direto da balança Quantitativa contínua Categoria no boxe (pena, leve, pesado) Qualitativa ordinal Unidade 01 Introdução à Estatística 9 prof. José Aguinaldo EXEMPLO 1 - Com base no pequeno questionário abaixo aplicado a um grupo de funcionários de uma escola, responda: a) Classifique as variáveis do questionário abaixo. b) Reformule a variável ‘número de filhos’ de forma que ela seja classificada como variável qualitativa. Observação Os programas estatísticos (Minitab, SPSS, SAS, R e outros) consideram cada variável como uma coluna e cada unidade de análise como uma linha. O Microsoft Excel é uma programa de planilha eletrônica com algumas funções e ferramentas estatísticas para análise de dados, mas nada comparado com os programas próprios de estatística. Abaixo, podemos ver a forma como os dados do questionário apresentado logo acima são devem ser digitados em um programa estatístico. As variáveis estão nas colunas e os respondentes nas linhas. Unidade 01 Introdução à Estatística 10 prof. José Aguinaldo 4 – Técnicas de amostragem 4.1 - Introdução O pesquisador, na grande maioria das vezes, trabalha com limitações de tempo e escassez de recursos humanos, materiais e financeiros, fatores estes que acabam impedindo o estudo de uma população de grande dimensão. O estudo de toda a população também não se faz tão necessário assim, visto que podemos ter resultados que atendem bem às necessidades da pesquisa, bastando analisar uma parcela da população. Fazendo uma analogia com um bolo, “é necessário comer todo o bolo para saber se ele é saboroso?”. Veja o exemplo da última eleição presidencial em 2006. O Brasil tem cerca de 126 milhões de eleitores e um levantamento feito pelo instituto Datafolha com 7.218 eleitores entre os dias 23 e 24 de outubro indicou que Lula tinha 61% dos votos válidos. No dia da eleição final, em 29 de outubro, Lula foi reeleito presidente do Brasil com 60,83% dos votos válidos, uma diferença de apenas 0,17% em relação ao resultado apresentado pelo levantamento do Datafolha. A técnica de amostragem é amplamente utilizada em diversas situações do dia-a-dia das empresas. No caso das empresas industriais, é usada na verificação da qualidade de seus produtos. No trabalho de auditoria, não se faz a verificação de todos os lançamentos contábeis, mas de parte deles, pelo processo de amostragem. Na área financeira, a avaliação do tempo médio de recebimentos de duplicatas faz-se por amostragem. Quando um levantamento é feito com todos os elementos de uma população, dizemos que foi realizado um censo. Razões para o uso da amostragem a) Economia de recursos: Economia com a utilização de recursos humanos e materiais (menos entrevistadores, menos questionários, etc.) b) Economia de tempo: O levantamento amostral permite obter dados em menor tempo, proporcionando rapidez nos resultados. c) Confiabilidade dos dados: Com grupos menores de pessoas, podemos trabalhar com pessoas mais qualificadas e equipamentos mais sofisticados. d) Testes destrutivos: Em testes destrutivos, tal como o teste da durabilidade das lâmpadas, exige-se que se faça o uso da amostragem. A destruição do elemento amostral acarreta prejuízo para a empresa. e) População é infinita: Em situação onde temos uma população infinita (medir a temperatura em uma região), o uso do levantamento amostral é o único meio a ser empregado. Unidade 01 Introdução à Estatística 11 prof. José Aguinaldo Razões para o uso do censo a) População pequena: Em se tratando de população reduzida, a realização do censo pode ser mais adequada do que a amostragem, pois os acréscimos de custos decorrentes da utilização de fatores humanos, materiais e econômicos seriam mínimos. b) Característica de fácil mensuração: Em certas situações, os dados são de tão fácil acesso que não se justifica a seleção de uma amostra. Podemos citar como exemplo, o caso de um banco interessado em estudar o perfil de seus clientes. O banco mantém um cadastro de todos os clientes que fazem abertura de contas, então fica fácil trabalhar com todos os clientes. c) Imposição legal: Como é o caso do Censo Demográfico do IBGE e eleição do TRE. 4.2 – Amostra representativa Os esquemas de amostragens nos permitem escolher um grupo de elementos que tenham características bem semelhantes às da população, de forma que este grupo (amostra) possa ser típico ou representativo. “O tamanho da amostra não determina se ela é de boa ou de má qualidade. Mais importante do que o seu tamanho é a sua representatividade, ou seja, o seu grau de similaridade com a população em estudo. Portanto, todos os grupos sociais e as várias regiões geográficas devem aparecer na amostra em proporção muito próxima à da população pesquisada.” (IBOPE, Seção: Biblioteca - 16/06/2004) A escolha pura e simples daquilo que nós julgamos ser representativo não permite que os resultados obtidos a partir de uma amostra possam ser generalizados para a população. A escolha aleatória dos elementos procura garantir a representatividade da amostra e permitir que os resultados obtidos da amostra sejam generalizados para a população de onde a amostra foi retirada.Unidade 01 Introdução à Estatística 12 prof. José Aguinaldo 4.3 – Dimensionamento do tamanho da amostra O tamanho da amostra diz respeito ao número de elementos a serem incluídos na amostra. O dimensionamento do tamanho da amostra envolve o conhecimento dos custos envolvidos, da variabilidade da variável de interesse na população, do método utilizado para seleção das unidades e, principalmente, da margem de erro. Quando usamos uma amostra para estimar um parâmetro da população, é evidente que haverá uma diferença entre a estimativa obtida pela amostra e o valor real do parâmetro na população. A maior diferença entre esta estimativa e o valor real é denominada de margem de erro. Esta margem de erro deve ser definida antes de se coletar os dados e é por meio dela que conseguimos calcular o tamanho da amostra. A margem de erro, portanto, é o maior erro cometido em uma estimação. Uma pequena margem de erro significa que as estimativas são consideradas bem precisas e um grande valor para a margem de erro significa que as estimativas obtidas não serão precisas. Caso o pesquisador deseja estimativas mais precisas e com menor margem de erro, ele terá que amostrar mais elementos e isto, é claro, irá aumentar os custos da pesquisa. Além da margem de erro, outros fatores também devem ser levados em consideração no momento do cálculo do tamanho da amostra: Esquema de amostragem a ser utilizado (amostra aleatória simples, estratificada, sistemática, conglomerados ou uma combinação destas). Estimativas preliminares de alguns parâmetros (proporção, variância, etc). Custo de amostrar um elemento. Se o custo for muito alto, espera-se amostrar menos. Não é o foco, no momento, trabalhar com as fórmulas para o cálculo do tamanho da amostra.. Estas fórmulas serão vistas posteriormente, mas só para vocês terem uma ideia de como se calcula o tamanho de amostra, mostraremos uma simples fórmula. Fórmulas para cálculo do tamanho da amostra: Para estimar uma proporção na população (p) podemos empregar a seguinte fórmula 2 1 E n onde E = margem de erro Veja na fórmula acima que o tamanho da amostra (n) é inversamente proporcional ao quadrado da margem de erro. Quanto menor o valor de E, maior será o valor de n. Se a margem de erro for reduzida pela metade, o tamanho da amostra (n) será multiplicada por 4. Para levar em consideração o tamanho da população N, devemos fazer um pequeno ajuste no resultado da fórmula acima. N n n n 0 0 1 onde 20 1 E n Unidade 01 Introdução à Estatística 13 prof. José Aguinaldo EXEMPLO 2 - Suponha que a universidade XYZ está interessada em estimar a proporção de seus alunos que estão satisfeitos com o trabalho da direção da escola. A universidade XYZ deseja determinar o tamanho da amostra de forma a garantir uma margem de erro de 4% para mais ou para menos em suas estimativas. Solução ------------------------------------------------------------------------------------------------------------------- A direção da escola fixou a margem de erro em 4% (E = 0,04). O tamanho da amostra necessária seria 625 040 11 22 ,E n alunos. A universidade deveria selecionar 625 alunos para estimar a proporção de alunos satisfeitos com a direção da escola com uma margem de erro de 4% para mais ou para menos. Note que, se a margem de erro for reduzida pela metade (E = 2%) o tamanho da amostra aumentaria para 2500 alunos (quatro vezes maior). EXEMPLO 3 - Repetir o exemplo anterior sabendo que na universidade há um total de 1000 alunos (N = 1000). Solução ------------------------------------------------------------------------------------------------------------------- Dados fornecidos: E = 0,04 ( = 4%) e N = 1000 625 04,0 11 22 E n0 alunos Como conhecemos o tamanho da população, vamos usar a seguinte fórmula: N n 1 n n 0 0 , então 385 1000 625 1 625 n alunos A universidade deveria selecionar 385 alunos do total de 1000 alunos para estimar a proporção de alunos satisfeitos com a direção com uma margem de erro de 4% para mais ou para menos. Unidade 01 Introdução à Estatística 14 prof. José Aguinaldo 4.4 - Técnicas de amostragem As técnicas de amostragem se dividem em técnicas probabilísticas e técnicas não probabilísticas. 4.4.1 - Técnicas de amostragem probabilística Nas técnicas probabilísticas, as amostras são obtidas pelo emprego de processos de escolha aleatória, ou seja, a seleção depende de fatores incertos, sujeitos ao acaso, não permitindo que o pesquisador influencie a seleção da amostra. Por exemplo, a escolha de três nomes de um total de dez nomes colocados em uma sacola é uma forma de escolha aleatória. Esses tipos de amostras são também conhecidos como randômicas, acidentais ou casuais. Na escolha de determinada técnica de amostragem probabilística, vários fatores devem ser levados em consideração como, por exemplo, a forma como os elementos estão distribuídos na população e o custo envolvido para selecionar o elemento. Com a amostragem probabilística, os resultados obtidos podem ser generalizados para a população de onde a amostra foi retirada e é também possível calcular a precisão destas estimativas. Os esquemas usuais de amostragem probabilística são: amostragem aleatória simples (AAS); amostragem sistemática (AASis); amostragem aleatória estratificada (AAE); amostragem por conglomerado (AAC). a) Amostragem aleatória simples (AAS) Cada elemento tem igual probabilidade de ser selecionado para compor a amostra. Isto equivale a dizer que todas as amostras de tamanho n de uma população com N elementos têm a mesma chance de ser obtidas. Supondo que o tamanho da amostra n já está definido por um método adequado, as etapas para a realização da amostragem aleatória simples são as seguintes: i). Obter uma listagem (frame) com todos os N elementos da população. ii). Usar um processo para “gerar” os n números aleatórios compreendidos de 1 a N. Você pode usar, por exemplo, o Excel (ver anexo 8.1). EXEMPLO 4 - Abaixo temos os valores de vendas (em mil reais) das 25 lojas que pertencem ao grupo da empresa ByteCom Ltda que comercializa equipamentos de informática. Um gerente da empresa resolveu extrair uma amostra aleatória simples de n = 6 lojas do total de N = 25 lojas que estão rotuladas de lj01 à lj25. Loja lj01 lj02 lj03 lj04 lj05 lj06 lj07 lj08 lj09 lj10 lj11 lj12 lj13 Vendas (em mil reais) 39 40 42 42 45 50 51 52 52 55 62 64 100 Loja lj14 lj15 lj16 lj17 lj18 lj19 lj20 lj21 lj22 lj23 lj24 lj25 Vendas (em mil reais) 115 120 120 122 122 127 130 201 202 202 203 205 Vamos precisar gerar seis números aleatórios de 01 a 25. Há várias formas de se fazer isto. Podemos escrever os números de 1 a 25 em pedaços de papéis e colocá-los em uma sacola e fazer o sorteio (método meio arcaico, né!). Podemos também usar programas de computador Unidade 01 Introdução à Estatística 15 prof. José Aguinaldo e/ou calculadora para gerar estes números. No Excel, por exemplo, podemos usar a função ALEATÓRIO() como está explicado no anexo 8.1. Suponha que, usando o Excel, conseguimos obter os seguintes valores: 08, 23, 24, 12, 03 e 07,correspondendo a 8ª loja, 23ª loja e assim sucessivamente. Abaixo, temos os valores de vendas das lojas selecionadas e uma estimativa da média das vendas das lojas que compõem a população de interesse. Loja 08 23 24 12 03 07 Vendas (em mil reais) 52 202 203 64 42 51 Média das vendas reais mil 33,102 6 614 6 51426420320252 ojasTotal de l endasSoma das v n x média i Com o resultado acima, podemos inferir (generalizar) que o gasto médio das 25 lojas (nossa população de interesse) é aproximadamente 102,33 mil reais1. b) Amostragem aleatória sistemática (AASi) Esse tipo de amostragem é uma variação da amostragem aleatória simples. Para a extração de uma amostra sistemática, é necessário dispormos de uma listagem da população ou seus elementos devem ser ordenados de tal forma que possam ser identificados pela posição. Imagine que você precise inspecionar 30 peças durante um dia de produção em uma empresa. Se optar por uma amostra aleatória simples, você teria que esperar a produção final do dia para depois sortear as peças. E se houvesse algum problema na produção a partir de um dado momento do dia? Só iríamos saber no final do dia. Uma solução seria você inspecionar uma peça à medida que ela fosse sendo produzida, você poderia, por exemplo, escolher sistematicamente uma peça a cada 10 peças produzidas. Esse é o esquema de amostragem aleatória sistemática. Supondo que o tamanho da amostra n já está definido por um método adequado, as etapas para a realização da amostragem aleatória sistemática são as seguintes: i). Calcule o intervalo amostral nNI A (aproximando para o inteiro mais próximo) ii). Escolher o ponto inicial ‘c’ de forma aleatória de 1 até IA. iii). A partir de ‘c’, escolher os elementos de IA em IA, até completar o tamanho da amostra n. Ou seja, os números seriam: elementos 32 n IcIcIcc AAA 1 A média das vendas das 25 empresas é de 102,48 mil reais (confira). Veja que a diferença foi muito pequena entre a estimativa (102,33 mil reais) e o valor “verdadeiro” (102,48 mil reais). Unidade 01 Introdução à Estatística 16 prof. José Aguinaldo EXEMPLO 5 - Abaixo temos os valores de vendas das 25 lojas que pertencem ao grupo da empresa ByteCom Ltda que comercializa equipamentos de informática. Um gerente da empresa resolveu extrair uma amostra aleatória sistemática de n = 6 lojas do total de N = 25 lojas rotuladas de lj01 à lj25. Loja lj01 lj02 lj03 lj04 lj05 lj06 lj07 lj08 lj09 lj10 lj11 lj12 lj13 Vendas (em mil reais) 39 40 42 42 45 50 51 52 52 55 62 64 100 Loja lj14 lj15 lj16 lj17 lj18 lj19 lj20 lj21 lj22 lj23 lj24 lj25 Vendas (em mil reais) 115 120 120 122 122 127 130 201 202 202 203 205 Etapas: 1) Intervalo amostral: 417,4625 AI 2) Como ponto inicial foi escolhido o c = 3 3) Números escolhidos? 3 7 11 15 19 23 4) Portanto, as lojas escolhidas seriam: lj03, lj07, lj11, lj15, lj19, lj23 Abaixo, temos os valores de vendas dessas empresas, bem como uma média das vendas das mesmas. Loja 03 07 11 15 19 23 Vendas (em mil reais) 42 51 52 120 127 202 Média das vendas reais mil 00,99 6 594 6 202127120525142 ojasTotal de l endasSoma das v n x média i Desvantagens do esquema de amostragem sistemática Uma desvantagem deste esquema de amostragem é quando existir alguma ordenação periódica dos elementos. Suponha que você deseja selecionar uma amostra do consumo mensal de água em sua casa. Se você resolver iniciar em Dezembro de um determinado ano e “pular” de 12 em 12 (intervalo amostral de 12), as próximas escolhas serão sempre em Dezembro dos anos seguintes. Neste caso, sua amostra seria estaria sendo formada pelos meses onde o consumo tende ser maior (devido às férias das crianças). Em determinadas situações, a ordenação dos elementos pode ser interessante. Veja o exemplo das lojas da ByteCom Ltda. Reparem que as vendas estão ordenadas em ordem crescente (da menor venda para maior venda). Desta forma, na nossa amostra, teremos lojas com valores de vendas bem representadas (grupo de lojas com menores vendas, um grupo de lojas com vendas intermediárias e um grupo de lojas com vendas maiores). +4 +4 +4 +4 +4 Unidade 01 Introdução à Estatística 17 prof. José Aguinaldo c) Amostragem aleatória estratificada Na amostra estratificada, devemos segmentar a população em estratos. Os estratos são subgrupos da população, onde os elementos tendem a possuir características bem homogêneas (semelhantes) entre si. A população é segmentada, por exemplo, em sexo masculino e feminino, nível de renda, faixa etária, porte da empresa, região demográfica, etc. Ao dividir a população em estratos procura-se garantir estimativas mais precisas (com menor erro de estimação), pois os elementos dentro de cada estrato são mais homogêneos do que na população geral. Na amostra estratificada, além das estimativas globais, também podemos obter estimativa dentro de cada estrato. Uma vantagem do uso da estratificação é que ela permite que elementos que pertencem a grupos de minorias possam também ser representados na amostra. Suponha que você precise selecionar 6 municípios dos 853 municípios de um estado, sendo que 10 deles pertencem a um grupo A e os 843 restantes pertencem a um outro grupo B. Em uma amostra aleatória simples é bem provável que nenhum dos municípios do primeiro grupo seja escolhido. Para garantir a representação desses municípios, uma boa opção é usar uma amostra aleatória estratificada usando os grupos (A e B) como estratos. Supondo que o tamanho da amostra n já está definido por um método adequado, as etapas para a realização da amostragem aleatória estratificado são as seguintes: i). Obter os estratos adequadamente; ii). Obter uma listagem de todos os elementos dentro de cada estrato e numerá-los; iii). Alocar o tamanho da amostra n em cada estrato; iv). Obter amostra aleatória simples (ou sistemática) dentro de cada estrato. A forma mais comum de alocar o tamanho da amostra n em cada estrato é a alocação proporcional. A alocação proporção consiste em selecionar os elementos da amostra dentro de cada estrato proporcionalmente ao tamanho de cada estrato. Isto significa que estratos maiores devem ter amostras maiores, estratos menores devem ter amostras menores. Alocação proporcional Estratos População Amostra 1 N1 NnNn 11 2 N2 NnNn 22 ... ... ... L NL NnNn kL Total N n Onde L = quantidade de estratos N e n = tamanho da população e da amostra, respectivamente. Ni e ni = tamanho da população e amostra do estrato i, respectivamente. L i iNN 1 L i inn 1 Unidade 01 Introdução à Estatística 18 prof. José Aguinaldo EXEMPLO 6 - Abaixo temos os valores de vendas das 25 lojas que pertencem ao grupo da empresa ByteCom Ltda que comercializa equipamentos de informática. Um gerente da empresa resolveu extrair uma amostra aleatória estratificada de n = 10 lojas usando os seguintes estratos: Estrato 1: Lojas cujas vendas alcançaram até 90 mil reais. Estrato 2: Lojas com vendas acima de 90 e abaixo de 200 mil reais Estrato 3:Lojas com vendas acima de 200 mil reais. Estrato 01 Estrato 02 Estrato 03 Loja Vendas (em mil reais) Loja Vendas (em mil reais) Loja Vendas (em mil reais) lj01 39 lj13 100 lj21 201 lj02 40 lj14 115 lj22 202 lj03 42 lj15 120 lj23 202 lj04 42 lj16 120 lj24 203 lj05 45 lj17 122 lj25 205 lj06 50 lj18 122 lj07 51 lj19 127 lj08 52 lj20 130 lj09 52 lj10 55 lj11 62 lj12 64 Com os estratos já definidos, o próximo passo é obter o tamanho da amostra em cada estrato e para isto vamos usar a alocação proporcional. Distribuição dos elementos na população e na amostra Estratos População Amostra 1 N1 = 12 n1 = 5 2 N2 = 8 n2 = 3 3 N3 = 5 n3 = 2 Total N = 25 n = 10 A determinação do tamanho da amostra em cada estrato foi feita proporcionalmente da seguinte maneira: 58425101211 ,NnNn lojas 3232510811 ,NnNn lojas 22510511 NnNn lojas Na alocação proporcional, a proporções de elementos em cada estrato na população são iguais às proporções de elementos em cada estrato na amostra. Na prática, elas serão aproximadas devido aos arredondamentos. Estrato i n n N N ii para i =1, 2 e 3 Para a seleção da amostra dentro de cada estrato vamos utilizar o esquema de amostra aleatória simples, mas a amostra aleatória sistemática também poderia ser usada. Veja a seguir como ficou a seleção das lojas. Unidade 01 Introdução à Estatística 19 prof. José Aguinaldo Para o estrato 1, vamos selecionar 5 números aleatórios de 01 a 12. Suponha que usamos o Excel para gerar estes números e obtivemos os seguintes valores: 08, 06, 05, 04 e 11. Para o estrato 2, vamos selecionar 3 números aleatórios de 13 a 20. Novamente, usando o Excel obtivemos os seguintes valores:18, 19 e 13. Para o estrato 3, vamos selecionar 2 números aleatórios de 21 a 25. Novamente, usando o Excel obtivemos os seguintes valores: 25 e 22. Vendas das lojas selecionadas Estrato 1 Estrato 2 Estrato 3 Loja 08 06 05 04 11 18 19 13 25 22 Vendas (em mil reais) 52 50 45 42 62 122 127 100 205 202 Média das vendas em cada estrato Estrato 1: mil reais,2050 5 251 5 6242455052 lojas de Total vendas das Soma n x média 1 i Estrato 2: reais mil 33,116 3 349 3 1001271220 2 ojasTotal de l endasSoma das v n x média i Estrato 3: reais mil 50,203 2 407 2 202205 3 n x média i Média global das vendas2 reais mil 7,100 10 1007 10 2025052 ojasTotal de l endasSoma das v n x média i d) Amostragem aleatória por conglomerado A amostragem por conglomerado consiste na divisão da população em subgrupos de elementos bem heterogêneos (diferentes) entre si e que cada subgrupo seja tão semelhante à população geral quanto possível. É como se gerássemos diversos subgrupos que pudessem representar a população que lhes deu origem. Assim, cada subgrupo populacional formaria o que denominamos de conglomerado, um tipo de mini população. A formação dos conglomerados é interessante, mas só fica na teoria, pois na prática é muito difícil conseguir subgrupos com elementos heterogêneos entre si e que, no geral, sejam semelhantes à população. Na maioria das vezes, os conglomerados são escolhidos mais pela facilidade de operacionalização e pela redução de custos do que pelas características heterogêneas. Por exemplo, suponha que um pesquisador esteja interessado em selecionar alunos das escolas da rede municipal nos municípios de Minas gerais. Como estas escolas estão bem espalhadas no estado, uma amostra aleatória simples iria selecionar alunos das mais diversas escolas e municípios, tornando a amostra demorada e com custo elevado. O pesquisador poderia pensar utilizar a amostragem por conglomerado considerando cada município como 2 O cálculo das médias de vendas da forma como feita só foi possível pelo fato da estratificação ter sido proporcional. Nos casos onde a estratificação não é proporcional, o mais correto seria uma média aritmética ponderada das médias em cada estrato. Ou seja, 3 3 2 2 1 1 x N N x N N x N N x onde ix = média no estrato i Unidade 01 Introdução à Estatística 20 prof. José Aguinaldo conglomerado. Inicialmente, o pesquisador iria sortear apenas alguns municípios dentre todos os possíveis3 e depois selecionar todos os alunos das escolas desses municípios sorteados. Quando o pesquisador opta por selecionar todos os alunos dos municípios (conglomerados) sorteados, dizemos que a amostragem por conglomerado é de “um estágio”. Quando o pesquisador resolve, dentro dos municípios sorteados, sortear escolas e selecionar todos os alunos, dizemos que a amostragem por conglomerado é de “dois estágios”. Se, por outro lado, ele resolve, dentro dos municípios e escolas sorteados, sortear os alunos, dizemos que a amostragem por conglomerado é de “três estágios”. Um estágio Dois estágios Três estágios Sortear alguns municípios de Minas Gerais e depois selecionar TODOS os alunos desses municípios Sortear alguns municípios de MG Sortear algumas escolas (dentro dos municípios sorteados) e depois selecione TODOS os alunos dessas escolas Sortear alguns municípios de MG Sortear algumas escolas (dentro dos municípios sorteados) Sortear alguns alunos (dentro das escolas e municípios sorteados) EXEMPLO 7 - Imagine que você deseje fazer uma pesquisa com os 250 funcionários das 25 lojas da empresa ByteCom Ltda e que as lojas estejam espalhadas por 6 grandes cidades por todo o Brasil conforme o desenho abaixo. Como a amostra por conglomerados poderia ser usada? As cidades e as lojas poderiam ser encaradas como um conglomerado. Neste caso, poderíamos selecionar uma amostra simples de três cidades, depois selecionar uma amostra de duas lojas dentro de cada cidade selecionada e, por fim, selecionar todos os funcionários destas lojas. Os valores dentro de cada retângulo correspondem ao número de funcionário de cada loja 3 Uma boa vantagem da amostra por conglomerado é que ela exige uma listagem (frame) apenas dos conglomerados e não de toda a população. 8 6 10 10 15 12 10 5 12 12 8 6 10 10 15 12 10 5 12 12 10 15 10 5 10 Unidade 01 Introdução à Estatística 21 prof. José Aguinaldo 4.4.2 - Técnicas de amostragem não probabilística Nas técnicas não probabilísticas, os elementos das amostras são obtidos pelo emprego de processos não aleatórios, sendo feito basicamente pelo julgamento pessoal do pesquisador e/ou entrevistador. O uso de tais técnicas se dá basicamente por motivos práticos e, estatisticamente, elas não são aconselháveis, visto que elas não nos permitem calcular a precisão das estimativas. Os planos de amostragem não probabilística usuais são: a) Amostragem por conveniência Procura obter uma amostra de elementos convenientes. A seleção dos elementos é deixada em grande parte a cargo doentrevistador. Usado em entrevista com “pessoas nas ruas”, entrevista em centros comerciais sem qualificar os entrevistados, etc. b) Amostragem por julgamento Pessoas são selecionadas segundo um critério de julgamento do pesquisador, tendo como base o que se acredita que o elemento selecionado possa fornecer ao estudo. Como exemplo, em uma pesquisa com os educadores (diretores, professores, etc) das escolas municipais, o pesquisador pode determinar que os diretores das escolas devessem sempre ser pesquisados. c) Amostragem por quotas Com este esquema, procuramos com uma amostra que se identifica em alguns aspectos com o universo (população) pesquisado e esta identificação pode estar ligada a algumas variáveis tais como sexo, idade, classe social, etc. Como exemplo, suponha que uma pesquisa deve ser feita para avaliar a opinião dos eleitores sobre certo jornal. Cada entrevistador tem que entrevistar, por exemplo, uma quantidade de pessoas da classe A, com idade entre 30 e 45 anos e do sexo masculino. A escolha das pessoas que satisfazem essas características fica por conta do entrevistador. d) Amostragem tipo “bola-de-neve” O grupo inicial de entrevistados (escolhidos aleatoriamente) indica outros entrevistados para o pesquisador. Por exemplo, o pesquisador entrevista um atuário. Ao fim da entrevista, o atuário indica outro (amigo ou não) atuário para ser também entrevistado. Bibliografia TOLEDO, Geraldo Luciano, OVALLE, Ivo Izidoro. Estatística básica. 2. ed. São Paulo: Atlas, 1981. COSTA, Sérgio Francisco. Introdução ilustrada à estatística. 3. ed. São Paulo: Harbra, 1998. LOPES, Paulo Afonso. Probabilidades & estatística. Rio de Janeiro: Reichmann & Affonso, 1999. 5 - Distribuição de frequência 5.1 – Introdução Definidos o tamanho da amostra e o esquema de seleção dos elementos, a próxima etapa é a coleta propriamente dita dos dados. Uma vez coletados, os dados devem ser apresentados em uma forma mais simples e compacta de forma a facilitar o trabalho e a interpretação das informações. Essa síntese é feita através de tabelas de frequência e/ou gráficos. Na construção de tabelas, algumas normas básicas devem sem observadas. No link abaixo, você poderá acessar o manual da PUC Minas com as normas da ABNT (Associação Brasileira de Normas Técnicas) para apresentação de tabelas e gráficos. http://www.pucminas.br/biblioteca/index_padrao.php Basicamente, uma tabela deve ter: Título – localizado no topo da tabela e seu texto deve ser bem explicativo, indicando o tempo e o lugar a que os dados se referem. Corpo . Cabeçalho - Identifica o conteúdo de cada coluna. . Coluna indicadora - Identifica o conteúdo de cada linha. . Linhas - Espaço horizontal de uma tabela destinada aos dados. . Casa ou célula - Cruzamento de uma linha com uma coluna destinada a um dado. Fonte - localizado no rodapé. Registra a origem dos dados que estão na tabela, devendo indicar autor, data e página. Deve ser precedida pela palavra FONTE. Nota geral - localizado abaixo da FONTE. Registra observações e comentários para esclarecer o seu conteúdo geral. Deve ser precedida pela palavra NOTA. Nota específica - localizado abaixo da NOTA geral. É uma nota específica para esclarecer algum elemento específico da tabela e é indicada por uma chamada. Abaixo temos exemplo de uma tabela usada nos relatórios do IBGE - Instituto Brasileiro de Geografia e Estatística. Unidade 01 Introdução à Estatística 23 prof. José Aguinaldo 5.2 – Séries estatísticas A série estatística é uma tabela e/ou gráfico que representa a distribuição dos dados estatísticos em função da época, do local ou da espécie. Época Destaca a época a que se refere o fenômeno estudado Local Destaca o local onde o fenômeno estudado acontece Espécie Destaca o próprio fenômeno estudado Tipos de séries estatísticas Dependendo do fator que está variando (época, local ou espécie), a série pode ser classificada em histórica, geográfica ou específica. SÉRIE HISTÓRICA A série histórica é também conhecida como série cronológica, série histórica, série evolutiva ou marcha. O que varia nesse tipo de série é a época (fator cronológico), mantendo-se fixos o local e a espécie. Os dados da Tabela 2.1.1 revelam que em 2004, o PIB do Brasil foi de 1,767 trilhão de reais. E na Tabela 2.1.2, temos a estimativa do número de trabalhadores com carteira assinada4 na região metropolitana de Belo Horizonte nos meses de Janeiro a Junho de 2007. 4 O contingente de trabalhadores brasileiros com carteira assinada, ou comumente chamada de “População Economicamente Ativa” (PEA), é a base de cálculo da taxa de desemprego medida pelo IBGE na Pesquisa Mensal de Emprego (PME). TABELA – Estimativa do número de trabalhadores com carteira assinada no Brasil de Janeiro a Junho de 2007 Mês Número de trabalhadores (em mil pessoas) Janeiro 2.430 Fevereiro 2.449 Março 2.457 Abril 2.467 Maio 2.453 Junho 2.467 FONTE: IBGE, Diretoria de Pesquisas, Coordenação de Trabalho e Rendimento, Pesquisa Mensal de Emprego. TABELA – Produto Interno Bruto (PIB) no Brasil no período 1999-2004 Ano PIB total (em trilhão de reais) 1999 0,974 2000 1,101 2001 1,199 2002 1,346 2003 1,556 2004 1,767 FONTE: IBGE, Diretoria de Pesquisas, Coordenação de Contas Nacionais. Unidade 01 Introdução à Estatística 24 prof. José Aguinaldo SÉRIE GEOGRÁFICA A série geográfica é também conhecida como série espacial, série territorial ou série de localidades. O que varia nesse tipo de série é o local (fator geográfico), mantendo-se fixos a época e a espécie. Os dados da tabela abaixo (à esquerda) mostram os cinco municípios brasileiros com maiores PIB em 2004. Os dados da tabela abaixo (à direita) mostram que as regiões Norte e Centro- Oeste têm 449 e 463 municípios, respectivamente. SÉRIE ESPECÍFICA A série específica é também conhecida como série categórica. O local e a época são fixos, sendo que a variável de interesse é discriminada segundo suas categorias ou especificações. Os dados da Tabela 2.1.5 mostram a quantidade de maquinários existentes no setor agropecuário do Brasil em Dezembro de 1995. Note que o local (Brasil) e a época (dez/1995) estão fixos, só estão variando as categorias dos maquinários. A Tabela 2.1.6 mostra o valor da produção no Brasil em cada categoria (vegetal ou animal). TABELA – Número de municípios brasileiros por região em 2007 Região Número de Municípios Norte 449 Nordeste 1792 Sudeste 1668 Sul 1188 Centro-Oeste 463 FONTE: IBGE, Diretoria de Pesquisas, Coordenação de Contas Nacionais. TABELA – Produto Interno Bruto (PIB) por município em 2004 Município PIB total (em bilhões de reais) São Paulo 160,638 Rio de Janeiro 73,975 Brasília 43,522 Manaus 29,678 Belo Horizonte 24,513 FONTE: IBGE, Diretoria de Pesquisas, Coordenação de Contas Nacionais. TABELA – Valor da produção animal e vegetal no Brasil no período de 1995- 1996 Produção Valor (em bilhões reais) Vegetal 28,96 Animal 18,83 Total 47,79 FONTE: IBGE, Censo Agropecuário de 1995 -1996. TABELA – Maquinaria e veículos existentes no Brasil em Dezembro de 1995Tipo de máquinas Número de máquinas Tratores 803.742 Máquinas para plantio 361.698 Máquinas para colheita 125.607 Caminhões 143.199 Utilitários 378.115 FONTE: IBGE, Censo Agropecuário de 1995 -1996. Unidade 01 Introdução à Estatística 25 prof. José Aguinaldo TABELA DE DUPLA ENTRADA (séries conjugadas) A tabela de dupla entrada faz uma conjugação de duas ou mais séries, sendo que o uso de duas séries é a forma mais comum. O nome tabela de dupla entrada se deve ao fato de uma série ficar na linha da tabela e a outra série ficar na coluna. Os dados da tabela abaixo mostram a estimativa do número (em mil pessoas) de trabalhadores com carteira assinada nas regiões metropolitanas de Belo Horizonte, Rio de Janeiro e São Paulo nos primeiros seis meses de 2007. Pelo fato dessa tabela ser a combinação de uma série histórica com uma série geográfica, ela é denominada de série geografia-histórica. TABELA – Número de trabalhadores (em mil pessoas) com carteira assinada no Brasil em 2007 Mês Belo Horizonte Rio de Janeiro São Paulo Janeiro 2.430 5.447 9.641 Fevereiro 2.449 5.463 9.678 Março 2.457 5.493 9.841 Abril 2.467 5.430 9.819 Maio 2.453 5.492 9.743 Junho 2.467 5.531 9.840 FONTE: IBGE, Diretoria de Pesquisas, Coordenação de Trabalho e Rendimento, Pesquisa Mensal de Emprego. Na tabela abaixo temos o efetivo (em milhões de cabeças) da pecuária brasileira no período de 1970 a 1996. Essa tabela envolve uma série específica e uma série temporal, então ela é denominada de série específica-temporal. TABELA – Efetivos da pecuária (em milhões de cabeças) no Brasil segundo a espécie e o ano Efetivo da pecuária 1970 1975 1980 1985 1996 Bovinos 78,55 101,67 118,09 128,04 153,06 Suínos 31,51 34,47 34,66 30,48 27,81 Aves 211,30 286,81 413,18 436,81 718,54 FONTE: IBGE, Censo Agropecuário de 1995 -1996. Toda tabela com valores é considerada uma série? É bom destacar, que nem toda tabela com valores é considerada uma série estatística. Os valores na tabela abaixo são meras informações relativas ao estado de Minas Gerais, elas não apresentam uma uniformidade (relacionada à época, ao local ou à espécie) necessária para se configurar uma série estatística. TABELA – Informações relativas ao estado de Minas Gerais Efetivo da pecuária Valores Área (em km²) 586.528,293 Número de municípios 853 População estimada 2005 19.237.450 FONTE: IBGE. Unidade 01 Introdução à Estatística 26 prof. José Aguinaldo 5.3 – Tabulação dos dados Ao coletar os dados referentes às variáveis em estudo, a organização e síntese desses dados é parte crucial de uma boa análise estatística. No caso de variáveis qualitativas, os valores se apresentam com certa repetição, portanto é interessante apresentar esses valores em forma de tabela, onde somente apareçam os diversos valores distintos e a frequência de cada um deles (ou seja, o número de vezes que cada valor aparece). Isso é exatamente o que foi feito nas séries estatísticas vistas anteriormente. Quanto as variáveis quantitativas, costuma-se apresentar uma tabela que mostra a frequência de valores individuais ou de valores incluídos em determinados intervalos ou classes. Essas tabelas são denominadas de distribuição de frequência. É comum denominar essa etapa de análise descritiva de tabulação dos dados. Para exemplificar a etapa de tabulação dos dados, vamos trabalhar com os dados da tabela abaixo que mostra o estado civil, o grau de instrução, o número de filhos e o salário para uma amostra de vinte funcionários da empresa XYZ. Empresa XYZ no ano de 2000 Funcionário EstCivil Instrução Filhos Salário 1 2 1 3 2,0 2 2 1 2 2,2 3 1 1 0 2,5 4 1 1 0 2,5 5 2 2 2 2,8 6 1 1 1 3,4 7 2 1 3 3,5 8 2 2 4 3,6 9 1 2 0 4,0 10 1 3 0 4,0 11 2 2 1 4,0 12 1 2 0 4,4 13 2 3 1 4,6 14 2 2 2 5,0 15 2 2 2 5,6 16 2 2 1 5,9 17 2 3 2 6,3 18 1 3 1 7,0 19 2 2 1 7,2 20 2 3 1 9,0 Legenda: EstCivil - Estado civil dos funcionários 1 - Solteiro 2 - Casado Instrução - Maior grau de instrução 1 - Ensino fundamental 2 - Ensino médio 3 - Ensino Superior Filhos - Número de filhos Salário - Salário dos funcionários (em salário-mínimo) Unidade 01 Introdução à Estatística 27 prof. José Aguinaldo 5.3.1 - Tabulação para variável qualitativa Tabela simples As duas tabelas abaixo mostram a contagem em valores absolutos e em percentual de funcionários para as variáveis “grau de instrução” e “estado civil”. O fa representa a frequência absoluta simples e o fr representa a frequência relativa simples (em %). Esta frequência relativa simples é obtida dividindo o fa pela soma dos fa, ou seja, 𝑓𝑎/∑𝑓𝑎. TABELA – Número de funcionários segundo o grau de instrução TABELA - Número de funcionários segundo o estado civil Grau de Instrução fa fr Estado Civil fa fr 1º grau 6 30% Solteiro 7 35% 2º grau 9 45% Casado 13 65% Superior 5 25% Total 20 100% Total 20 100% FONTE: dados hipotéticos FONTE: dados hipotéticos Gráfico de Colunas A altura de cada coluna corresponde a frequência absoluta (fa) ou mesma a frequência relativa (fr). Gráfico de Setores (Pizza) Como saber o ângulo de cada fatia do gráfico de pizza? Com o uso da regra de três simples e um transferidor, podemos construir facilmente um gráfico de pizza. Vamos pegar como exemplo o gráfico ao lado. 20 360º 20 360º 7 x 13 x x = 126º x = 234º 126º 234º Unidade 01 Introdução à Estatística 28 prof. José Aguinaldo Tabela de dupla entrada A tabela abaixo é chamada de dupla entrada (ou tabela cruzada), pois envolve duas variáveis. Dos resultados apresentados podemos dizer: Considerando todos os funcionários, 45% têm apenas o 2º grau completo e 65% são casados. Podemos ver também, que 35% dos funcionários são casados e tem o 2º grau completo. TABELA – Número de funcionários segundo estado civil e grau de instrução Estado civil Grau de instrução Total 1º grau 2º grau Superior Solteiro 3 (15%) 2 (10% 2 (10%) 7 (35%) Casado 3 (15%) 7 (35%) 3 (15%) 13 (65%) Total 6 (30%) 9 (45%) 5 (25%) 20 (100%) FONTE: dados hipotéticos Podemos também calcular os percentuais considerando os totais de cada linha. Considerando todos os funcionários, 45% deles têm apenas o 2º grau completo. Entre os casados, 53,8% têm apenas o 2º grau completo, enquanto que, entre os solteiros, este percentual é de 28,6%. TABELA – Porcentagem de funcionários por grau de instrução segundo o estado civil Estado civil Grau de instrução Total 1º grau 2º grau Superior Solteiro 42,8% 28,6% 28,6% 100% Casado 23,1% 53,8% 23,1% 100% Total 30% 45% 25% 100% FONTE: dados hipotéticos Podemos também calcular os percentuais considerando os totais de cada coluna. Considerando todos os funcionários, 65% deles são casados. Entre os que têm o 1º grau completo, o 2º grau completo e o superior completo, o percentual de casados são, respectivamente, 50%, 77,8% e 60%. TABELA – Percentual de funcionários por estado civil segundo o grau de instrução Estado civil Grau de instrução Total 1º grau 2º grau Superior Solteiro 50% 22,2% 40% 35% Casado 50%77,8% 60% 65% Total 100% 100% 100% 100% FONTE: dados hipotéticos Gráfico de barras agrupadas Unidade 01 Introdução à Estatística 29 prof. José Aguinaldo 5.3.2 – Tabulação para variável quantitativa Também podemos utilizar uma tabela de frequência simples para variável quantitativa, desde que esta variável tenha poucos valores distintos. Caso ela tenha muitos valores, este tipo de tabela se mostra inadequada, pois ficaria muito extensa. O que difere esta tabela das anteriores vistas é a presença das duas colunas que mostram as frequências acumuladas. Por exemplo, para a linha que corresponde à dois filhos, temos o valor Fa = 17, que seria a soma das frequências absolutas 5, 7 e 5 e Fr = 85%, que corresponde a soma das frequências relativas 25%, 35% e 25%. TABELA – Número de filhos Número de filhos fa fr Fa Fr 0 5 25% 5 25% 1 7 35% 12 60% 2 5 25% 17 85% 3 2 10% 19 95% 4 1 5% 20 100% FONTE: dados hipotéticos Onde: fa = frequência absoluta simples fra = frequência relativa simples Fa = fa acumulada até a classe Fr = fr acumulada até a classe Da tabela acima, 17 funcionários (= 85%) têm até dois filhos. Gráfico de hastes Quantidade de filhos Nú m er o de fu nc io ná rio s ( fi) 43210 7 6 5 4 3 2 1 0 GRÁFICO 4 - Número de funcionários por filhos Unidade 01 Introdução à Estatística 30 prof. José Aguinaldo Tabela de frequência simples com classe Este tipo de variáveis é indicado quando temos uma variável quantitativa com muitos valores distintos, o que ocorre com as quantitativas contínuas. TABELA – Tabela de frequência com classe para os salários Salários fa fr Fa Fr 2,0 | 3,5 6 30% 6 30% 3,5 | 5,0 7 35% 13 65% 5,0 | 6,5 4 20% 17 85% 6,5 | 8,0 2 10% 19 95% 8,0 | 9,5 1 5% 20 100% Total 20 100% -- -- Na tabela acima, temos cinco classes ou intervalos, com a primeira classe iniciando em 2,0 e indo até 3,5. O limite inferior desta classe é 2,0 e o limite superior é 3,5. Veja os cálculos usando a 4ª classe como exemplo fa = 2 dois funcionários com salários de 6,5 a menos de 8,0 fr = 0,15 (ou 15%) fa/fa = 3/20 = 0,15 (15%) Fa = 19 = 6 + 7 + 4 + 2 Fr = 0,95 ou 95%) = 30% + 35% + 20% +10% Notações utilizadas A | B a ≤ valores < b Todos valores maiores ou iguais a “A” e menores do que “B” Li, Ls limite inferior e superior da classe h amplitude da classe = Ls - Li Olhando apenas a tabela de frequência construída responda: a) O limite superior e inferior da classe com maior frequência são, respectivamente ____ SM e ____ SM. Nesta classe há um total de _____ funcionários, o que corresponde a _____%. b) O limite inferior da 4ª classe é Li = _____e o limite superior é Ls = _____. Portanto, a amplitude dessa classe é h = _____. c) ____ funcionários recebem menos de 6,5 SM, o que corresponde a _____%. d) ____ % dos funcionários recebem 5,0 SM ou mais. e) ____ funcionários recebem menos de 2,0 SM. f) ____ funcionários recebem mais de 9,5 SM. Respostas: a) 5,0 3.5 7 35% b) 6.5 8,0 1.5 c) 17 85% d) 35% e) 0 f) 0 Unidade 01 Introdução à Estatística 31 prof. José Aguinaldo Histograma O histograma é construído colocando-se a variável de interesse no eixo horizontal (eixo do x) e a frequência (absoluta ou relativa) no eixo vertical (eixo do y). O gráfico é bem semelhante ao gráfico de barras, porém não há um espaçamento entre as barras. Olhando apenas o histograma acima, responda: a) ____ funcionários recebem menos de 4,5 SM o que corresponde a ____% dos funcionários. b) ____ funcionários recebem no mínimo de 6,0 SM o que corresponde a ____% dos funcionários. O histograma permite analisar a forma como os dados estão distribuídos, ou seja, se os dados estão distribuídos simetricamente ou assimetricamente (à esquerda ou á direita) Distribuição simétrica em torno da média Distribuição assimétrica á direita Distribuição assimétrica á esquerda x Fr eq uê nc ia re la tiv a (% ) 1211109876543210 25 20 15 10 5 0 Histograma simétrico em torno da média x Fr eq uê nc ia re la tiv a (% ) 1211109876543210 35 30 25 20 15 10 5 0 Histograma assimético à esquerda x Fr eq uê nc ia re la tiv a (% ) 1211109876543210 30 25 20 15 10 5 0 Histograma assimétrica à direita Unidade 01 Introdução à Estatística 32 prof. José Aguinaldo Polígono de frequências Esse gráfico é também uma representação do contorno do histograma. Ele é construído conectando os pontos médios das bases superiores dos retângulos do histograma. Para conectar o polígono de frequência ao eixo das abscissas, duas classes fictícias são criadas somente para “fechar” o polígono: 0,5 |-- 2,0 e 9,0 |-- 10,5 O polígono de frequência permite comparar a distribuição de dois ou mais conjuntos de dados no mesmo gráfico. Compare abaixo a distribuição da pressão sistólica para dois grupos de faixas etárias. O grupo da faixa etária 2 apresenta, em geral, pressão sistólica superior ao outro grupo. Unidade 01 Introdução à Estatística 33 prof. José Aguinaldo Ogiva de Galton (Polígono de frequências acumuladas) A Ogiva de Galton é um gráfico que representa as frequências acumuladas. A variável de interesse é colocada no eixo das abscissas e a frequência acumulada (absoluta ou relativa) no eixo da ordenadas. Para ajudar na construção do gráfico, desenham-se as colunas (em pontilhado) e depois os limites superiores de coluna são conectados (linha vermelha). É também possível conectar usando os pontos médios de cada coluna. No gráfico abaixo, o eixo vertical corresponde as frequência acumuladas em %. Observando a linha azul no gráfico, podemos dizer que cerca de 75% funcionários recebem menos de 6 salários mínimos. Olhando apenas a Ogiva acima, responda: a) ____% funcionários recebem menos de 3.5 SM, o que corresponde a ____ dos funcionários. b) ____% funcionários recebem no mínimo 6,5 SM, o que corresponde a ____ dos funcionários. c) 25% dos funcionários recebem até ____ SM. d) 90% dos funcionários recebem até ____ SM. Respostas: a) 30% e 6 b) 15% e 3 c) 3,3 SM (aproximadamente) d) 7,5 SM (aproximadamente) Unidade 01 Introdução à Estatística 34 prof. José Aguinaldo Como determinar a quantidade de classes? Não existe um critério rígido para a elaboração de uma tabela de frequência com classe. As etapas a seguir são critérios arbitrários, servindo apenas como sugestões para auxiliar a construção da tabela de frequência. Etapas na construção da tabela de frequência 1) Ordenar em ordem crescente os dados brutos e calcular a amplitude: At = Maior - menor 2) Determinar o número de classes (k) Alguns autores propõem que seja um número de 5 a 20 classes (quanto maior o número de observações, maior seráo número de classes). Veja a sugestão da tabela de Kelly. Usar a fórmula de Sturges: nk 10331 log, Outros autores preferem uma fórmula mais simples: nk Tabela de Kelley5 n 5 10 25 50 100 200 500 1000 k 2 4 6 8 10 12 15 15 Toledo e Ovalle, 1985 3) Determinar a amplitude do intervalo de classe (h) k At h Caso seja necessário, arredonde o valor obtido para um número mais adequado aos seus dados, de forma a facilitar a construção e análise da tabela. O arredondamento é arbitrário. 4) Determinar os limites (inferior e superior) das classes. O limite inferior da primeira classe pode ser o menor valor do conjunto de observações ou um valor um pouco menor, de modo que facilite a construção e análise da tabela. 5) Construir a tabela de frequência usando fa, fr, Fa, Fri 5 Truman L. Kelley, em The Grouping Data for Graphics Portrayal Unidade 01 Introdução à Estatística 35 prof. José Aguinaldo 5.2 – Outros gráficos Gráfico de Pontos Um dos mais simples resumos de dados gráficos. No eixo horizontal está a variável de interesse e cada valor está representando por um ponto localizado acima do eixo. Com o gráfico de pontos podemos estudar as distribuição dos valores da variável e também verificar se há presença de valores atípicos (outliers). No gráfico abaixo estamos comparando os salários dos funcionários segundo o grau de instrução. Vemos que os funcionários com maior nível educacional apresentam, em geral, maiores salários. Gráfico de Linha Os gráficos de linha são geralmente empregados para representação de séries de tempo (série temporal). O gráfico abaixo mostra a evolução da taxa referencial (TR) iniciando no mês de janeiro de 1998. A TR tem como objetivo servir de taxa básica referencial dos juros que seriam praticados num determinado mês. 8.17.26.35.44.53.62.71.8 1o grau 2o grau Superior Salário 26242220181614121086420 Salário 0,0% 0,2% 0,4% 0,6% 0,8% 1,0% 1,2% 1,4% jan/98 jan/99 jan/00 jan/01 jan/02 jan/03 jan/04 jan/05 jan/06 jan/07 jan/08 jan/09 Um possível outlier Unidade 01 Introdução à Estatística 36 prof. José Aguinaldo Gráfico de dispersão O gráfico de dispersão é um gráfico bidimensional que envolve duas variáveis (x e y) e que mostra o tipo de relação que há entre as mesmas. A variável que fica no eixo vertical é denominada de variável dependente e a que fica no eixo horizontal é variável independente. Cada par de valores (x; y) é representado por um ponto no gráfico. O gráfico abaixo representa as idades do marido e esposa em uma amostra de 14 casais (GRAÇA MARTINS e PONTE, 2010). Veja que a idade do marido está relacionada de forma linear com a idade da esposa, com esposas mais velhas casadas com maridos mais velhos. Neste caso, dizemos que estas duas variáveis estão correlacionadas positivamente. Unidade 01 Introdução à Estatística 37 prof. José Aguinaldo Gráfico de bolhas O gráfico de bolhas é um tipo de gráfico de dispersão no qual temos uma terceira variável que controlará o tamanho do círculo (bolha). Escola Média da proficiência em matemática %Alunos com atraso Quantidade de alunos esc01 240 18 500 esc02 300 22 800 esc03 350 15 350 esc04 320 30 1200 esc05 230 36 400 esc06 240 45 1500 Unidade 01 Introdução à Estatística 38 prof. José Aguinaldo Pictograma É um tipo de gráfico que usa desenho ou símbolos para mostrar as informações de forma a facilitar a instrução, orientação, informação e divulgação. Unidade 01 Introdução à Estatística 39 prof. José Aguinaldo Gráfico radar Um gráfico de radar, também conhecido como gráfico de aranha devido à sua aparência, plota os valores de cada categoria ao longo de um eixo separado que inicia no centro do gráfico e termina no anel externo. Aspectos Pontuação Leitura 6 Escrita 8 Vocabulário 8 Uso do Inglês 8 Comunicação 10 Unidade 01 Introdução à Estatística 40 prof. José Aguinaldo Gráfico de ramo-e-folha O gráfico de ramo-e-folha (stem-and-leaf) é utilizado para mostrar como os dados estão distribuídos. A grande vantagem é que este gráfico usa, em sua representação, os próprios valores do conjunto de dados. Cada valor é mostrado no gráfico em duas partes: ramo e folha. Por exemplo, o valor 76 seria separado em 7 (ramo) e 6 (folha) e o 78 em 7 (ramo) e 8(folha). Estes dois valores (76 e 78) seriam dispostos na mesma linha com o 7 no lado esquerdo representando as dezenas (chamado de ramo) e o 6 e 8 ficariam no lado direito, representando, cada um, a unidade (chamado aqui de folha), como mostrado abaixo. 7 | 68 Ramo: representa o primeiro dígito do valor, seno o mais comum a dezena. Folha: consiste de outro dígito do valor, sendo o mais comum unidade. Como exemplo, considere o gráfico ramo-e-folha para um conjunto de seis valores. 6 389 unidade da folha = 1,0 7 68 8 0 Como a unidade da folha acima é 1, então os valores são lidos como: 63, 68, 69, 76, 78 e 80. Caso a unidade de folha for 10, então teremos os valores 630, 680, 690, 760, 780 e 800. Por outro lado, se unidade de folha for 0,1 teremos os valores 6.3, 6.8, 6.9, 7.6, 7.8 e 8.0. È como se a unidade da folha trabalhasse como um “multiplicador”. Tente este ... O gráfico de ramo-e-folha abaixo representa as notas seria de 60 alunos de uma sala. Qual é a porcentagem de alunos aprovados, se a nota mínima for 60 pontos? 2 679 3 1889 4 127999 5 12237 6 000000000011234555557888 7 00234555679 8 02225 9 67 Unidade da folha = 1.0 Unidade 01 Introdução à Estatística 41 prof. José Aguinaldo Gráfico de Pareto O gráfico de Pareto é um gráfico de barras que dispõe as informações (em ordem decrescente) de modo que se torna possível a identificação dos principais problemas enfrentado pela empresa ou das principais causas de um problema. O princípio de Pareto foi inicialmente estabelecido por J. M. Juran, que adaptou aos problemas da qualidade a teoria para modelar a distribuição de renda desenvolvida pelo sociólogo e economista italiano Vilfredo Pareto (1843- 1923). A lei de Pareto diz, em linhas gerais, que a maioria dos defeitos pode ser creditada apenas a umas poucas categorias (“poucos vitais”) devendo, portanto, ser atacadas inicialmente, deixando as demais categorias (“muitos triviais”) para outra oportunidade. O gráfico Pareto abaixo descreve os tipos de defeitos detectados em lentes de contato em uma amostra retirada da produção de uma semana (WERKEMA, 1995, p. 77). Quais são os dois defeitos que deveriam ser “atacados” primeiro pelo fabricante com o objetivo de reduzir as reclamações? Frequencia 55 41 12 11 5 3 % 43,3 32,3 9,4 8,7 3,9 2,4
Compartilhar