Baixe o app para aproveitar ainda mais
Prévia do material em texto
Núcleo de Educação a Distância ESTATÍSTICA APLICADA Autora: Janine Velloso do Amaral Belo Horizonte / 2012 Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 2 | P á g i n a ESTRUTURA FORMAL DO NÚCLEO DE EDUCAÇÃO A DISTÂNCIA REITOR LUÍS CARLOS DE SOUZA VIEIRA PRÓ-REITOR ACADÊMICO SUDÁRIO PAPA FILHO COORDENAÇÃO GERAL AÉCIO ANTÔNIO DE OLIVEIRA COORDENAÇÃO TECNÓLÓGICA EDUARDO JOSÉ ALVES DIAS COORDENAÇÃO DE CURSOS GERENCIAIS E ADMINISTRAÇÃO HELBERT JOSÉ DE GOES COORDENAÇÃO DE CURSOS LICENCIATURA/ LETRAS LAILA MARIA HAMDAN ALVIM COORDENAÇÃO DE CURSOS LICENCIATURA/PEDAGOGIA LENISE MARIA RIBEIRO ORTEGA / ELIANE MONKEN ORIENTAÇÃO PEDAGÓGICA FERNANDA MACEDO DE SOUZA ZOLIO AUXILIAR PEDAGÓGICO RIANE RAPHAELLA GONÇALVES GERVASIO MARINA RODRIGUES RAMOS INSTRUCIONAL DESIGNER DÉBORA CRISTINA CORDEIRO CAMPOS LEAL INGRETT CAMPOS LOPO PATRICIA MARIA COMBAT BARBOSA EQUIPE DE WEB DESIGNER CARLOS ROBERTO DOS SANTOS JÚNIOR DANIEL EUSTÁQUIO DA SILVA MELO RODRIGUES ERNANE GONÇALVES QUEIROZ GABRIELA SANTOS DA PENHA REVISORA ORTOGRÁFICA MARIA DE LOURDES SOARES MONTEIRO RAMALHO SECRETARIA LUANA DOS SANTOS ROSSI MARIA LUIZA AYRES MONITORIA ELZA MARIA GOMES AUXILIAR ADMINISTRATIVO THAYMON VASCONCELOS SOARES MARIANA TAVARES DIAS RIOGA AUXILIAR DE TUTORIA MIRIà NERES PEREIRA RENATA DA COSTA CARDOSO NATHALIA CUNHA POLESE Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 3 | P á g i n a Sumário Unidade 1 ................................................................................................................7 Unidade 2 ................................................................................................................27 Unidade 3 ................................................................................................................44 Unidade 4 ................................................................................................................64 Unidade 5 ................................................................................................................77 Legenda Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 4 | P á g i n a Nosso Tema Sintese Referências Bibliográficas Saiba mais Reflexão Material complementar Atividade Dica Importante Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 5 | P á g i n a Nosso Tema Você já ouviu falar em estatística? Alguns podem dizer que não, mas é pouco provável. Talvez apenas não tenham associado às informações que lêem nos jornais, ouvem nos rádios ou que assistem pela TV com o conceito de estatística. Em nosso dia a dia, a estatística está sempre presente. Por exemplo, quando você assiste à previsão do tempo, aos cálculos de temperatura máxima, mínima e à previsão de chuva, tudo isso está relacionado a cálculos estatísticos. Na área econômica, temos os indicadores econômicos como o IPC (Índice de Preços ao Consumidor), o PIB (Produto Interno Bruto) e muitos outros. Todos esses números são calculados com base estatística e visam descrever o panorama econômico de um país em determinado período. Outro exemplo muito importante é o Censo Populacional feito pelo IBGE (Instituto Brasileiro de Geografia e Estatística). O censo populacional é uma pesquisa feita com toda a população de um país. Ele coleta informações sobre as condições de vida da população (escolaridade, saúde, saneamento básico, entre outros). Mas qual a importância desse estudo? A partir da análise dos dados coletados pelo Censo, o governo avalia suas políticas públicas nas áreas da saúde, educação, distribuição de renda etc., e é capaz de redirecionar recursos e criar novas políticas que atendam as necessidades da população. No campo empresarial, a estatística está presente de diversas formas. Pode estar no controle de qualidade numa linha de produção, na pesquisa de opinião de consumidores sobre um novo produto. Esses são apenas alguns exemplos. Nesta unidade, você encontrará uma introdução ao estudo de estatística. Nosso objetivo é que conheça alguns conceitos e definições, base para nosso estudo. Vamos em frente! Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 6 | P á g i n a Reflexão Você deve estar se perguntando: “Por que estudar estatística?” Como futuro profissional da área de gestão, você deverá ser capaz de criar e avaliar estratégias, ações internas e externas que visem não só à permanência de sua empresa no mercado de forma competitiva, mas, também, ao crescimento dela. � Mas como fazer isso? � Quais as necessidades dos meus colaboradores? � Quais as necessidades dos meus clientes? � Qual a posição da minha empresa em relação aos concorrentes? � O que fazer para aumentar os lucros? � O que fazer para diminuir os custos? Essas e outras questões podem ser respondidas com o auxílio da estatística. Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 7 | P á g i n a Unidade 1: Introdução 1. Conteúdo Didático 1.1. Introdução Estatística é uma ciência que compreende todo um conjunto de métodos para coletar, organizar, resumir, apresentar, analisar um (ou mais) conjunto(s) de dados de tal modo que permitam quantificá- los, qualificá-los ou ordená-los para que possamos concluir, deduzir ou predizer propriedades, eventos ou estados futuros. Para facilitar o entendimento, a estatística pode ser dividida em três grandes áreas: • Estatística descritiva: responsável pelo tratamento preliminar dos dados, resumo, apresentação e análise de dados. • Probabilidade: estudo de fenômenos de caráter aleatório, aqueles de resultados possíveis, mas incertos. • Inferência: aplicação de técnicas que permitem extrapolar resultados da pesquisa feita num pequeno grupo (amostra) para um grupo maior (população). Ao longo do curso, iremos trabalhar com as duas primeiras áreas Estatística Descritiva e Probabilidade, a Inferência é uma área mais avançada da Estatística e não será tratada em nossa disciplina. 1.2. Arredondamento de dados Ao longo de nosso curso, faremos muitos cálculos que necessitarão de arredondamento de resultados. Para fazer o arredondamento de números devemos observar algumas regras. Veja a seguir! Para fazer arredondamentos, devemos definir primeiramente qual o número de casas decimais desejado. De maneira geral, utilizamos arredondamento de uma ou duas casas. Essa definição é feita pelo pesquisador levando em consideração a natureza dos dados e objetivos da pesquisa.Existem, apenas, duas regras para arredondamento que devem ser observadas. • Se o primeiro número a ser desprezado for 0, 1, 2, 3 ou 4 devemos manter o útlimo a permanecer. Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 8 | P á g i n a • Se o primeiro número a ser desprezado for 5, 6, 7, 8 ou 9 devemos aumentar o último a permanecer em uma unidade. Veja alguns exemplos: 1.3. Variáveis Numa pesquisa ou estudo, a característica ou o fenômeno de interesse recebe o nome de variável (MAGALHÃES E LIMA, 2001). Por exemplo, quando perguntamos a idade dos alunos numa turma, a variável em questão é a idade. Quando retiramos alguns parafusos numa linha de produção para avaliar o peso, a variável em questão é peso. As variáveis podem ser classificadas como: As variáveis qualitativas podem ser classificadas em: � Nominal, quando indicam categorias mutuamente exclusivas (como sexo, religião, nacionalidade e todas as questões cuja resposta é sim ou não); � Ordinal, quando indicam possição hierárquica ou sequência classificatória (como classes sociais, lista de concursos); � Intervalar, quando utiliza intervalos de valores para classificar (como filmes em péssimo, ruim, bom, ótimo ou excelente). As variáveis quantitativas podem ser classificadas em: � Discretas, quando assumem valores a partir de contagem (geralmente números inteiros); � Contínuas, quando podem assumir qualquer valor num dado intervalo, como medidas de peso e estatura, por exemplo. Arredonde para o décimo mais próximo o resultado das operações: 9,1875,1815 3,833333333,865 ≅=÷ ≅=÷ L Qualitativa: quando caracterizam, tipificam ou atribuem uma qualidade ao elemento pesquisado; Quantitativa: quando surgem da contagem, mensuração ou medição. Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 9 | P á g i n a Fonte: Autora Vamos agora definir alguns conceitos que serão utilizados em nosso estudo. 1.4. População e amostra Nos estudos estatísticos, o objetivo é conhecer ou descrever características ou propriedades para um conjunto de dados, para, a partir daí, tirar conclusões. Ao conjunto de todos os elementos que possuem uma (ou um conjunto) de características em comum, de interesse da pesquisa, ou seja, objeto de estudo, damos o nome de população ( DOWING; CLARK, 2003). Muitas vezes não é possível pesquisar todos os elementos de uma população. A população pode ser grande e de difícil acesso aos pesquisadores, gerando um custo muito alto, ou ainda, grandes volumes de dados que podem dificultar ou demorar muito para serem analisados. Como seria possível uma empresa entrevistar todos os seus consumidores? – um problema de tempo e dinheiro. Existem, ainda, razões éticas, por exemplo, nas pesquisas feitas com seres vivos. Ou, ainda, situações, onde é realmente impossível, como no caso do exame de sangue de uma pessoa. Não poderíamos extrair todo o sangue para que fosse feita a pesquisa, não é mesmo? Variável Qualitativa Quantitativa Nominal Ordinal Intervalar Discreta Contínua Exemplos de variável qualitativa: sexo (nominal), naturalidade (nominal), nacionalidade (nominal), opinião sobre qualidade de serviço (intervalar: muito bom, bom, regular e ruim), colocação na tabela do campeonato de futebol (ordinal: 1º lugar, 2º lugar), etc. Exemplos de variável quantitativa: • Discreta: idade, número de filhos, número de alunos numa turma, etc. • Contínua: peso, estatura, área, volume, etc. Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 10 | P á g i n a E, então, se não podemos acessar todos os elementos ou indivíduos da população, o que fazer? Utilizamos uma parte dessa população. Esse subconjunto de elementos ou indivíduos, que pertence à população, recebe o nome de amostra. Fonte: Autora Existem regras a serem seguidas para seleção de amostras: são as técnicas de amostragem. Veja no próximo tópico. 1.4.1. Técnicas de amostragem Para que possamos tirar conclusões sobre uma população, tendo como base dados obtidos numa amostra, devemos garantir que a amostra represente a população como um todo. Caso contrário, poderíamos chegar a conclusões equivocadas (MILONE, 2004). Um exemplo claro de como o plano de amostragem é importante, foi o acontecido numa pesquisa de intenção de voto em 1936, durante as eleições presidenciais dos Estados Unidos da América, publicada no Literary Digest. O Literary ouviu a opinião de 2 milhões de pessoas (...). A pesquisa predisse uma fácil vitória para Alfred Landon, quando, na realidade, Franklin D. Roosevelt venceu por ampla margem (DOWNING & CLARK, 2003, pág.177). Ao fazer a seleção da amostra, foi utilizada a lista telefônica. Acontece que, naquele tempo, as pessoas que possuíam telefone não representavam a população adequadamente; logo, essa não era uma amostra representativa (DOWNING & CLARK, 2003).Mas como garantir uma amostra representativa? Ocorre que o melhor sistema de escolha de amostra consiste em não adotar qualquer sistema – em outras palavras, a amostra deve ser selecionada de modo completamente aleatório. O sistema deve ser delineado de modo completamente aleatório. O sistema deve ser delineado de modo que todos tenham a mesma chance de serem incluídos na amostra. E não somente isso – o sistema deve ser planejado de modo que cada amostra que possamos conceber tenha a mesma chance de ser a amostra que efetivamente escolhemos. (DOWNING & CLARK, 2003, p.169). �������� ������� �������� ������� População ��� ��� �� Amostra Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 11 | P á g i n a Apesar das amostras aleatórias, ou seja, de elementos sorteados ao acaso geralmente representarem adequadamente uma população, devemos ressaltar certos casos. Seja qual for o método, o importante é a chance de dada característica populacional aparecer na amostra: método ruim é aquele em que tal chance é muito diferente da proporção populacional; método bom é aquele em que a amostra é representativa, isto é, parece uma miniatura da população em estudo, denunciando suas propriedades e proporções. (MILONE, 2004, p. 13). As amostras podem ser probabilísticas ou não probabilísticas. A primeira prevê seleção ao acaso, equivalente a um sorteio, uma seleção aleatória dos elementos da amostra, em que cada elemento da população tem uma chance de participar da amostra, conhecida e diferente de zero. Os três principais métodos de amostragem probabilística são: Amostragem Aleatória Simples, Amostragem Sistemática e Amostragem Estratificada. Amostragem probabilística é a seleção de elementos ao acaso. Pode ser realizada com reposição, em que o elemento é sorteado e volta à população, podendo ser sorteado novamente; ou sem reposição, em que o elemento selecionado não retorna à população. Na prática, utilizamos primordialmente a amostragem sem reposição – suponha que cada elemento seja uma pessoa que irá responder a um questionário. Fica sem sentido e incômodo ao entrevistado responder a um mesmo questionário mais de uma vez. A amostragem não probabilística é aquela determinada pelo pesquisador, por isso é subjetiva e depende do julgamento de quem a realiza. Pode ser intencional, quando o elemento é selecionado pelo pesquisador; ou voluntária,quando os elementos populacionais apresentam-se espontaneamente para o estudo (MILONE, 2004, pág. 15). Esse tipo de amostragem pode ainda ser chamada de amostragem por conveniência (DOWNING & CLARK, 2003, pág. 178): Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 12 | P á g i n a Fonte: Autora Veja a seguir como funcionam as técnicas de amostragem! 1.4.2. Amostragem não probabilística Mas se o pesquisador selecionar os elementos a serem entrevistados ou observados, não será? possível tender o resultado ao desejado, sem refletir, necessariamente, a realidade? Sim, de fato isso é verdade! Mas um pesquisador comprometido com a verdade e, consciente de seu papel na sociedade, não age dessa maneira. Mesmo que tenha selecionado, ele mesmo, intencionalmente os elementos da amostra, não significa que o estudo tenha sido tendencioso. Esse tipo de amostragem é indicado para populações pequenas ou conhecidas a fundo pelo pesquisador ou, ainda, quando o estudo trata de assunto delicado ou constrangedor (MILONE, 2004, pág. 15). É difícil convencer uma transeunte a dar informações sobre sua vida sexual, por exemplo, ou a tomar um novo medicamento que será testado num grupo de pessoas. Daí a importância desse tipo de amostragem. Mas devemos tomar cuidado quanto às generalizações feitas com dados coletados em amostras não probabilísticas, pois eles não podem ser submetidos à inferência estatística, já que essa técnica aplica-se somente a amostras probabilísticas. Contudo, não perdem o efeito de retratar uma realidade, devemos apenas informar de maneira criteriosa como a amostra foi selecionada e o motivo de se optar pela amostragem não probabilística. Vejamos agora como funcionam as técnicas de amostragem probabilísticas. 1.4.3. Amostragem aleatória simples É a seleção de elementos para composição de amostra por sorteio ao acaso. Nela, todos os elementos têm igual chance de serem selecionados. Para que seja realizada, é necessária uma listagem ou banco de dados com todos os elementos da população, o que pode, em alguns casos, Amostragem Probabilística Não probabilística Amostragem aleatória simples Amostragem sistemática Amostragem estratificada Intencional Voluntária Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 13 | P á g i n a ser um empecilho. O sorteio é equivalente a escrever o nome ou número identificador de cada elemento da população em um papel, colocar numa urna e sacar os elementos para constituir a amostra; porém é uma tarefa difícil, dependendo do número de elementos da população. Para simplificar e agilizar, utilizamos a tabela de números aleatórios (TNA) ou a geração de números aleatórios por programas de computador (o Excel é um deles) para substituir o sorteio. Para fazer um sorteio utilizando a tabela de números aleatórios (TNA), o pesquisador escolhe um número de linha e coluna para o início da leitura, determinando também o sentido em que a leitura seguirá. A seleção de elementos, no sorteio, deve respeitar o tamanho da amostra e a natureza da codificação atribuída aos elementos da população. Vejamos a TNA apresentada abaixo. Ela contém 25 linhas numeradas para facilitar a localização dos números e 45 colunas, agrupadas em 9 colunas. Observe! TNA – Tabela de números aleatórios 1 32426 18772 76910 52223 05238 68340 83545 45972 09442 2 67794 12710 42460 24780 90030 02961 99571 10659 00589 3 21256 08828 23715 26783 59980 89226 13119 19586 76089 4 80360 59202 44605 90518 97349 88563 98942 00781 92871 5 34071 34511 57120 93221 40697 10655 66882 34698 89237 6 32881 71932 63989 58772 21742 46193 81901 50005 20858 7 43091 69604 00583 50492 07066 11961 87265 51507 70217 8 19070 54599 35352 13977 88932 26457 60040 79605 23543 9 04717 73548 32490 08310 30442 95401 57403 56354 70997 10 42311 73906 51389 08515 48005 81686 61784 47462 49884 11 60279 98234 81917 24828 57425 96298 63694 14805 16525 12 18021 57806 35893 30858 77669 11701 38324 23343 74036 13 07024 96703 45757 97743 59126 92698 06885 56983 48849 14 00349 41304 68570 51571 98947 77465 02813 10057 92704 15 52314 44815 53961 76310 62141 10876 31555 56342 54702 16 96071 18088 62008 99879 37250 50233 59561 98799 27858 17 35300 70566 54528 41787 14514 60591 83810 73565 03702 18 99013 14385 96209 88567 33500 27295 90170 36321 33600 19 28832 80419 18474 57848 50193 67892 89323 62861 74689 20 77111 61381 44258 79367 82524 92661 47739 19420 42051 21 69763 60054 13373 60715 99063 17709 46003 74304 57209 22 19353 87117 93237 03310 27611 85279 42926 16244 56277 23 94208 35632 60830 32594 29330 75521 10978 92870 96173 24 40720 35067 14705 36686 10027 00682 21659 14780 71530 25 34357 38587 84847 03914 64454 24832 93534 54344 33008 Fonte: Autora Nº das linhas Cada coluna da tabela possui 5 colunas de números. Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 14 | P á g i n a Vamos, como exemplo, localizar o número na 12ª linha e 8ª coluna. O número indicado é o 8. A partir daí, o sorteio pode continuar para baixo, seguindo o sentido da coluna (o próximo seria 7) ou para a direita seguindo a linha (o próximo seria 0, que representa o número 10) ou em qualquer outra direção preestabelecida pelo pesquisador. Perceba que, fazendo o sorteio de números de um algarismo, poderíamos sortear no máximo 10 elementos sem repetição, (1 a 9, e o 0 representa o número 10), mas, e se nossa população possuir 80 elementos? Temos que garantir que todos participem do sorteio! Então, sortearemos números de dois algarismos, utilizando a coluna indicada e a seguinte. Para o exemplo citado, caso fossem sorteados números de dois algarismos, o primeiro seria o 80 (8ª e 9ª colunas), veja na tabela! 11 60279 98234 81917 12 18021 57806 35893 13 07024 96703 45757 14 00349 41304 68570 15 52314 44815 53961 16 96071 18088 62008 17 35300 70566 54528 Fonte: Autora Como faremos amostragem sem repetição, caso o número sorteado seja repetido ou esteja fora da população (por exemplo: população com 80 elementos, sorteado o elemento 97), ele será desconsiderado ou ignorado, continuando o sorteio até completar o número de elementos da amostra. Vamos a um exemplo! Os custos médios (em reais) de determinado produto, produzido em um mesmo setor, com a utilização de um mesmo processo, foram observados e registrados em 30 diferentes remessas. Os valores são apresentados a seguir. Extraia uma amostra aleatória simples de tamanho n = 6. TNA 13a L e 13a C. 146 119 118 116 136 106 153 122 139 118 143 116 106 129 122 127 145 120 117 133 141 130 146 124 131 136 141 133 144 133 Fonte: Autora O primeiro passo é codificar a população, atribuindo um número a cada elemento. O sentido da numeração é preestabelecido pelo pesquisador. Aqui utilizaremos o número da esquerda para direita. Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 15 | P á g i n a 1 146 2 119 3 118 4 116 5 136 6 106 7 153 8 122 9 139 10 118 11 143 12 116 13 106 14 129 15 122 16 127 17 145 18 120 19 117 20 133 21 141 22 130 23 146 24 124 25 131 26 136 27 141 28 133 29 144 30 133 Essa será a numeração a ser sorteada. Precisamos de 6 elementos (numerados de 1 a 30), sorteados pela TNA 15a L e 13a C (consideraremos as colunas 13 e 14, pois precisaremos de números com dois algarismos), seguindo o sentido da coluna para baixo. Como os elementos da população estão numerados de 1a 30, o sorteio será de números de dois algarismos, desprezando os números repetidos e maiores de 30. Sorteio: o primeiro número é o 9, mas queremos com dois algarismos, logo é 96, que não faz parte da população e será ignorado. Seguimos as colunas para baixo, o próximo é 00 (que representa o 100 e também não faz parte da população e será desprezado), continuamos assim até obter a quantidade de elementos válidos desejada. Observe a leitura da tabela! 14 00349 41304 68570 51571 15 52314 44815 53961 76310 16 96071 18088 62008 99879 17 35300 70566 54528 41787 18 99013 14385 96209 88567 19 28832 80419 18474 57848 20 77111 61381 44258 79367 21 69763 60054 13373 60715 22 19353 87117 93237 03310 23 94208 35632 60830 32594 24 40720 35067 14705 36686 25 34357 38587 84847 03914 1 32426 18772 76910 52223 2 67794 12710 42460 24780 3 21256 08828 23715 26783 4 80360 59202 44605 90518 5 34071 34511 57120 93221 6 32881 71932 63989 58772 7 43091 69604 00583 50492 8 19070 54599 35352 13977 9 04717 73548 32490 08310 10 42311 73906 51389 08515 11 60279 98234 81917 24828 Fonte: Autora Leitura da tabela (sorteio): 96, 00, 52, 20, 47, 25, 37, 23, 83, 70, 84, 05, 02, 52, 09. Os elementos em azul são os válidos; então, teremos: 20, 25, 23, 05, 02 e 09. O número 00 aqui representa o 100, assim como na leitura de números com 3 algarismos o 000 representa o 1000 e, assim, sucessivamente. Leitura: 96, 00, 52, 20, 47, 25, 37, 23, 83, 70, 84. A tabela chegou ao final e, ainda, não completamos a amostra, assim “pularemos” para as próximas duas colunas (15ª e 16ª), iniciando na 1ª linha. Observe! Continuando a leitura: 05, 02, 52, 09. Assim, completamos os 6 elementos válidos da amostra. Vamos ver como fica a amostra. Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 16 | P á g i n a Para determinar a amostra, fazemos a correspondência do número sorteado e o elemento da população que ele representa. Amostra: 133, 131, 146, 136, 119 e 139. 1.4.4. Amostragem sistemática A amostragem sistemática pressupõe um intervalo regular para a tomada de elementos para compor a amostra: como entrevistar duas pessoas a cada hora, ou retirar 5 aparelhos para inspeção a cada 2 horas na linha de produção de uma fábrica. Esse intervalo regular pode ser estabelecido pelo pesquisador ou calculado a partir do tamanho da amostra que se deseja, através da razão n N , onde N é o tamanho da população e n é o tamanho da amostra. Vejamos um exemplo! A demanda pelo produto X, na primeira semana de dez/06, em 35 estabelecimentos comerciais, revelou os seguintes valores (em número de caixas). Extraia uma amostra sistemática de tamanho 7. 35 19 20 22 36 42 25 42 20 28 24 23 29 33 37 14 22 35 30 30 38 39 29 27 21 27 32 49 18 26 24 33 34 29 39 Primeiro, nós iremos codificar a população, atribuindo um número para identificar cada elemento. 1 35 2 19 3 20 4 22 5 36 6 42 7 25 8 42 9 20 10 28 11 24 12 23 13 29 14 33 15 37 16 14 17 22 18 35 19 30 20 30 21 38 22 39 23 29 24 27 25 21 26 27 27 32 28 49 29 18 30 26 31 24 32 33 33 34 34 29 35 39 Aqui o intervalo será definido de acordo com o tamanho da amostra; logo, para uma população de 35 elementos com uma amostra de 7, o intervalo será de 5 7 35 = , ou seja, a seleção será de 5 em 5. Mas qual será o primeiro elemento? Ele pode ser sorteado pela TNA, seguindo orientações do pesquisador. Atenção, nesse caso, apesar da população conter 35 elementos, o sorteio será apenas do 1º elemento, que poderá ser 1, 2, 3, 4 ou 5, por causa do intervalo (de 5 em 5), logo o sorteio será de um número com um algarismo, de 1 a 5. Vamos utilizar a TNA 23ª linha e 26ª coluna. Veja! Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 17 | P á g i n a 23 94208 35632 60830 32594 29330 75521 24 40720 35067 14705 36686 10027 00682 25 34357 38587 84847 03914 64454 24832 O número que aparece na indicação de linha e coluna é o 7, mas não pode ser utilizado (tem que ser de 1 a 5); o próximo (abaixo do 7) é o zero que representa 10, também não serve; logo abaixo vem o 2. Esse será o nosso primeiro elemento. Com isso, nossa amostra será composta pelos elementos de número: 2, 7, 12, 17, 22, 27 e 32 (começando pelo 2 e seguindo intervalo de 5 em 5). Agora é só fazer a correspondência dos números selecionados com os elementos da população. Amostra: 19, 25, 23, 22, 32, 33. 1.4.5. Amostragem estratificada A amostragem estratificada baseia-se na subdivisão da população em estratos (subgrupos). Esses subgrupos da população possuem uma característica comum que os identifica a um único estrato. São exemplos de estratos: masculino e feminino; classe socioeconômica, religião, etnia, etc. É necessário, para a aplicação dessa técnica, o conhecimento da população em relação aos estratos e à participação de cada um na população. Nesse tipo de amostragem, a proporção de cada estrato apresentada na população é respeitada dentro da amostra. Por exemplo, numa universidade, onde 60% dos alunos são do sexo feminino e 40% do sexo masculino, haverá uma amostra selecionada, onde as proporções de 60% feminino e 40% masculino serão mantidas. Para isso, os elementos da população são separados previamente. O cálculo do número de elementos a serem selecionados dentro de cada estrato é feito com base no tamanho da amostra e na composição da população. Então, segue uma amostragem aleatória simples dentro de cada estrato. Observe o exemplo! Os dados abaixo referem-se ao tempo de execução (minutos) de uma dada etapa em um processo produtivo, quando foi observado o desempenho de 53 operários em três diferentes turnos. Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 18 | P á g i n a Turno I: 81 50 86 92 91 91 88 87 86 86 91 87 88 Turno II: 94 94 97 96 96 96 90 94 93 95 97 95 96 97 93 Turno III: 100 98 100 98 108 110 103 105 114 107 98 109 107 109 104 107 106 102 104 99 100 99 191 99 100 Considere cada turno como um estrato e extraia uma amostra estratificada proporcional de tamanho 9. Devemos, em primeiro lugar, identificar os elementos da população, em cada um dos estratos. Turno I : 1 8 2 5 3 8 4 9 5 9 6 9 7 8 8 8 9 8 10 8 11 9 12 8 13 8 Turno II: 1 9 2 9 3 9 4 9 5 9 6 9 7 9 8 9 9 9 10 9 11 9 12 9 13 9 14 9 15 9 Turno III: 1 100 2 98 3 100 4 98 5 108 6 110 7 103 8 105 9 114 10 107 11 98 12 109 13 107 14 109 15 104 16 107 17 106 18 102 19 104 20 99 21 100 22 99 23 191 24 99 25 100 O segundo passo é determinar o número de elementos a ser selecionado dentro de cada estrato.Para isso, calculamos por regra de três simples: Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 19 | P á g i n a Fonte: Autora Agora, faremos o sorteio dos elementos de cada estrato, respeitando a quantidade calculada anteriormente. Para o sorteio de cada estrato, utilizaremos uma indicação de linha e coluna diferente, pré-estabelecida pelo pesquisador, seguindo a leitura no sentido da coluna para baixo. Turno I: 2 elementos (1 a 13) TNA 4ª linha 8ª coluna. Fazendo a leitura da tabela na linha indicada e utilizando a 8ª e 9ª colunas, pois a população está numerada de 1 a13, os números válidos são: 08 e 05. Turno II: 3 elementos (1 a 15) TNA 8ª linha 12ª coluna. Nove está para 53 assim como x está para 13. Nove é o tamanho da amostra, 53 é o tamanho da população, 13 é o número de elementos do estrato “Turno I” e x representa o número de elementos do turno I. Como x deve ser um número inteiro, arredondamos para 2. Para o primeiro estrato Turno I 2 2,2 53 117 11753 13.9.53 = = = = = x x x x x 9 � 53 X � 13 Para o segundo estrato Turno II 9 � 53 X � 15 3 5,2 53 135 13553 15.9.53 = = = = = y y y y y Nove está para 53 assim como x está para 15. Nove é o tamanho da amostra, 53 é o tamanho da população, 15 é o número de elementos do estrato “Turno II” e y representa o número de elementos do turno II. Como y deve ser um número inteiro, arredondamos para 3. Para o primeiro estrato Turno III 9 � 53 Z � 25 Nove está para 53 assim como z está para 25. Nove é o tamanho da amostra, 53 é o tamanho da população, 25 é o número de elementos do estrato “Turno III” e z representa o número de elementos do turno III. Como z deve ser um número inteiro, arredondamos para 4. 4 2,4 53 225 22553 25.9.53 = = = = = z z z z z Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 20 | P á g i n a Seguindo o mesmo processo para o turno I, os elementos válidos no sorteio são: 13, 08 e 05. Turno III: 4 elementos (1 a 25) TNA 1ª linha 7ª coluna. Da mesma maneira, os elementos válidos para esse turno são: 19, 13, 05 e 04. Com isso, a amostra será formada pelos elementos: Turno I: 87 e 91 Turno II: 96, 94 e 96 Turno III: 104, 107, 105 e 98 Apesar de conter duas vezes o 96, não há repetição de elementos, já que eles são referentes a elementos distintos da população. É o mesmo que acontece quando duas pessoas numa turma têm a mesma idade, o valor é o mesmo, mas os elementos da população são distintos. Isso vale para todas as técnicas estudadas aqui. Vejamos, agora, o que é o método estatístico e suas fases. 1.5. O método estatístico Engana-se aquele que pensa que a estatística começa com as informações em mãos. O método estatístico tem fases que vão desde a preparação até a conclusão final da pesquisa. Então, vamos ao conhecimento de cada uma delas. 1.5.1. Fases do método estatístico Para Crespo (1995, p. 14 e 15), as fases do método estatístico são: Toda pesquisa começa com uma pergunta. A resposta a essa pergunta consiste do objetivo da pesquisa. No planejamento, é feita a delimitação do problema, a construção do objetivo, a elaboração do cronograma de atividades, a planilha de custos, a determinação da população e da amostra (se for o caso), como os dados serão analisados (manualmente ou por computador), tipo de informação (questionário ou observação), modelo para registro das informações coletadas; em suma, todos os passos a serem dados desde a pergunta inicial até sua resposta. A coleta de dados é o segundo momento do método. Após a conclusão do planejamento, fazemos a coleta de dados. Existem diversos meios de se coletar dados. Um dos mais utilizados é o questionário, que pode ser aplicado por um entrevistador pessoalmente ou por telefone, ou pode ser enviado por correio ou e- mail. Esses últimos possuem o inconveniente de muitos questionários não serem I. Planejamento II. Coleta de Dados Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 21 | P á g i n a devolvidos. Ao elaborar um questionário, devemos levar em consideração alguns aspectos importantes como a forma e o tipo de pergunta que será feita ao respondente. De maneira geral, a informação do questionário relata aquilo que o entrevistado acha conveniente responder; então, evite perguntas constrangedoras; garanta ao entrevistado o anonimato das respostas. Assim, ele vai se sentir mais confortável para responder com honestidade às questões. Após a coleta dos dados, passamos à crítica. Essa etapa visa eliminar, do conjunto de questionários respondidos ou do conjunto de observações, possíveis falhas, sejam questionários incompletos ou dados ilegíveis. Na etapa de apuração de dados, processamos as informações manual ou eletronicamente. Hoje, são raras as apurações manuais, dada a grande variedade de recursos tecnológicos para apuração de dados. Após a apuração dos dados, passamos aos cálculos pertinentes e elaboramos tabelas e gráficos para apresentar os resultados. Existem normas para apresentação de tabelas e gráficos em textos científicos, estabelecidas pela ABNT (Associação Brasileira de Normas Técnicas) e pelo IBGE que devem ser observadas na elaboração de textos científicos e acadêmicos. Como última etapa, temos a análise dos resultados. É nessa fase que será feita a conclusão da pesquisa levando em conta o seu objetivo e os resultados obtidos. Podemos ainda ir mais fundo na análise de dados, utilizando inferência estatística. Mas, como a estatística será utilizada em administração de empresas? Umas das principais atividades, senão a principal, de um gestor é a tomada de decisão. A estatística aparece, nesse cenário, como uma ferramenta que irá fornecer subsídios para decidir. Ela pode ser utilizada como sondagem, obtendo e analisando dados que possibilitem avaliação da situação atual, que visem ao estabelecimento de metas para criar melhorias. Pode ser usada também como método para verificação ou avaliação de planos de ações já implementados, possibilitando a adequação de recursos humanos, financeiros ou de materiais. 1.6. Evolução histórica Vimos alguns conceitos importantes para o estudo de Estatística, agora um pouco da história desse conteúdo tão vasto e interessante. IV. Apuração dos Dados V. Sumarização dos Dados VI. Análise dos Resultados III. Critica Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 22 | P á g i n a A estatística remonta aos primórdios da história humana. Os egípcios e os persas já registravam informações relativas a grupos sociais em 3000 a.C. A princípio, sua utilização estava ligada à cobrança de impostos e às práticas militares e governamentais. A partir do século XVI, aparecem as primeiras análise sistemáticas, com o surgimento de tábuas, tabelas e números relativos. Consideramos que, por volta do século XVII, iniciaram-se os estudos formais sobre probabilidade. Segundo Milone (2004), o surgimento dos estudos preliminares sobre o assunto aconteceu por causa da populariadade dos jogos de azar que utilizavam dados e cartas de baralho, gerando, na comunidade da época, certa curiosidade. De fato, é nessa época que surgem as indagações de Méré (1607-1684) – jogador, filósofo e homem das letras – e Pascal (1623–1662) – filósofo, físico e matemático – sobre jogos de azar; mas é na correspondência trocada entre Pascal e Fermat (1601- 1665) que ambos chegam a um mesmo resultado para o problema da divisão das apostas, questão teórica proposta por Méré (Milone, 2004, p. 345). Com a evolução dos estudos sobre probabilidade, surgem as distribuições de probabilidade e modelagem matemática, base da inferência estatística que permite a extrapolação de conclusões sobre uma parte do conjunto para o todo. Atualmente, são muitos os recursos tecnológicos apropriados pela estatística. Os mais acessíveis e simples são as calculadoras científicas, que permitem cálculos diretos com a utilização de banco de dados armazenadosna memória interna. Para saber como operar as funções estatísticas da sua calculadora, leia o manual! Cada calculadora funciona de maneira diferente. Temos ainda programas de análise de dados, elaboração de tabelas e gráficos, como o Excel. Nele é possível executar todos os cálculos da estatística descritiva, como média e desvio padrão; e ainda programas específicos de tratamento estatístico de informações como o Minitab que consiste em uma poderosa ferramenta de análise e apresentação de dados. Bom pessoal, encerramos a parte introdutória do conteúdo, na próxima unidade iremos trabalhar as formas de apresentação de dados estatísticos que são muito utilizadas mas, às vezes, sem atenção devida às normas. Até lá! Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 23 | P á g i n a 2. Teoria na Prática Agora é hora de praticar! Utilize os conceitos trabalhados para solucionar as questões! Sempre que necessário, consulte o texto didático e bom trabalho! Observe a reportagem abaixo: Pesquisa traça o perfil do usuário da internet IBGE contou 32,1 milhões de usuários da internet no país, que é dominada pelos jovens inte e um por cento (32,1 milhões) da população de 10 anos ou mais de idade acessaram pelo menos uma vez a Internet em algum local - domicílio, local de trabalho, estabelecimento de ensino, centro público de acesso gratuito ou pago, domicílio de outras pessoas ou qualquer outro local - por meio de microcomputador. As informações fazem parte do suplemento da Pesquisa Nacional por Amostra de Domicílios - PNAD de 2005 sobre acesso à Internet e posse de telefone móvel celular para uso pessoal, divulgada nessa sexta-feira, 23. O levantamento, realizado pelo IBGE, em parceria com o Comitê Gestor da Internet no Brasil - CGI.br, mostrou também que o rendimento, o nível de instrução e a idade apresentam reflexos evidentes no acesso à Internet. Dentre os 32,1 milhões de pessoas que acessaram a Internet, em 2005, a maior parte era de homens(16,2 milhões), tinha entre 30 a 39 anos (5,8 milhões), 13,9 milhões eram estudantes, 20 milhões integravam a população ocupada e 4,2 milhões era de trabalhadores de serviços administrativos. Segundo a pesquisa, os internautas tinham em média 28 anos de idade, 10,7 anos de estudo e um rendimento médio mensal domiciliar per capita de R$1.000,00. Além disso, metade dos internautas utilizou a rede no domicílio em que morava e 39,7% em seu local de trabalho. A conexão discada à Internet mostrou-se mais difundida que a banda larga. 1/3 dos jovens de 15 a 17 anos são internautas Os usuários da Internet apresentaram perfil bastante distinto daquele das pessoas que não utilizaram a rede. As diferenças entre esses dois grupos se tornam evidentes no confronto de suas características de idade, nível de instrução e rendimento. A idade média da população de 10 anos ou mais de idade, usuária da Internet, situou-se em 28,1 anos, sendo expressivamente menor que a das pessoas que não usaram esta rede (37,5 anos). A pesquisa verificou que a utilização da Internet estava mais concentrada nos grupos etários mais jovens. No grupo de 15 a 17 anos de idade, 33,9% das pessoas acessaram essa rede, sendo este resultado maior que os das demais faixas etárias. Esse percentual foi declinando com o aumento da faixa de idade, atingindo 7,3% no contingente de 50 anos ou mais de idade. A proporção de pessoas que acessaram a Internet no grupo etário de 10 a 14 anos (24,4%) ficou acima daqueles das idades a partir de 30 anos, tanto na parcela feminina como na masculina. Fonte: Disponível em: http://www.jornaldoestado.com.br/index.php?VjFSQ1 VtUXlWa1pqU0ZKUFVrZDRUMWxYYzNoTk1WRjN WV3RLYVZadVFsWlVWVkpUVkRKU05rMUVhejA9 Acesso em 14/05/2007 V Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 24 | P á g i n a Nessa reportagem, verificamos o resultado de uma pesquisa realizada pelo IBGE em parceria com CGI – Comitê Gestor da Internet no Brasil. A PNAD – Pesquisa Nacional por Amostra de Domicílio, como o próprio nome sugere, é baseada em amostra, e a população referência do estudo é a população brasileira, todos os habitantes do nosso país. Com as informações apresentadas, podemos identificar algumas variáveis de interesse do estudo. Quais são elas? Idade, local onde o acesso foi realizado (domicílio, local de trabalho, estabelecimento de ensino, centro público gratuito ou pago, domicílio de outra pessoa), rendimento, nível de instrução (apresentado em anos de estudo), sexo, tipo de conexão utilizada no acesso (discada ou banda larga). Qual a classificação de cada uma dessas variáveis? Idade: quantitativa discreta; local de acesso: qualitativa nominal; rendimento: quantitativa contínua; nível de instrução: quantitativa contínua; sexo: qualitativa nominal; tipo de conexão: qualitativa nominal. O jornal Correio de Uberlândia apresentou uma reportagem sobre o mesmo assunto no caderno Cidade, no dia 24/03/2007, divulgando dados da mesma pesquisa, com o seguinte título e chamada: “ Pesquisa mapeia uso da internet: Segundo o IBGE, cerca de 79% dos brasileiros nunca acessaram a net.” Que diferenças você percebe ao comparar os títulos e as chamadas das duas reportagens? Não existe certo e errado na divulgação de resultados de pesquisas. Há diferenças na interpretação e enfoque dado aos dados. Podemos perceber que a chamada da segunda reportagem tem um cunho mais negativo, destacando o percentual de brasileiros que nunca acessaram a internet. Observe que a mesma informação está na primeira linha da primeira reportagem, mas sem alarde. Esse exemplo ilustra como devemos ser cautelosos ao apresentar dados. Uma simples alteração de escala na construção de um gráfico pode destacar equivocadamente um comportamento de queda ou ascensão acentuado. O mesmo aconteceu no caso tratado. A informação é a mesma, com a mesma fonte; porém o destaque da informação é diferente em cada uma das reportagens. Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 25 | P á g i n a 3. Síntese O que vimos nesta unidade? Estatística é um conjunto de métodos para coletar, organizar, resumir, apresentar e analisar um ou mais conjunto de dados e deles extrair conclusões. População é o nome dado ao conjunto de todos os elementos que possuem uma ou mais características de interesse do estudo. Amostra é um subconjunto, ou seja, uma parte da população. Variável é o fenômeno ou característica de interesse do estudo. São classificadas da seguinte forma: Sobre amostras e técnicas de amostragem: Toda amostra deve ser representativa para que possamos, com base nos dados observados na amostra, predizer ou concluir sobre a população. A amostragem é probabilística quando todos os elementos da população têm chance conhecida e diferente de zero de serem selecionados; e é não probabilística, quando os elementos da população são escolhidos ou selecionados pelo pesquisador. A amostragem probabilística pode ser selecionada com reposição, quando os elementos sorteados voltam para a urna ou podem ser considerados mais de uma vez na leitura da TNA (tabela de números aleatórios); ou sem reposição em que cada elemento só pode ser sorteado uma única vez, Variável Qualitativa Quantitativa Nominal Ordinal Intervalar Discreta Contínua Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação aDistância | Newton Paiva 26 | P á g i n a não retornando à população quando é sorteado, ou é desconsiderado quando seu número aparece novamente na leitura da TNA. As três principais técnicas de amostragem probabilística são: • Amostragem Aleatória Simples: elementos sorteados ao acaso, com utilização de tabela de números aleatórios, recursos computacionais ou outro sistema. • Amostragem Sistemática: os elementos da amostra são selecionados, respeitando um intervalo regular entre eles. • Amostragem Estratificada: a população é separada em subgrupos, o número de elementos sorteados de cada estrato obedece à composição proporcional da população em relação ao tamanho da amostra desejada. Para a seleção dos elementos, é feito sorteio entre os elementos de cada estrato. A amostragem não probabilística é subjetiva e depende do bom senso do pesquisador quanto à seleção dos elementos da amostra. Sua utilização não significa, necessariamente, que o estudo é tendencioso. Ela pode ser intencional, quando o elemento é selecionado pelo pesquisador; ou voluntária, quando os elementos populacionais apresentam-se espontaneamente para o estudo (MILONE, 2004, pág. 15). Esse tipo de amostragem pode ainda ser chamada de amostragem por conveniência (DOWNING & CLARK, 2003, pág. 178). Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 27 | P á g i n a Unidade 2: Sumarização e Apresentação de Dados 1 Conteúdo Didático 1.1 Introdução Quando realizamos um estudo, ou pesquisa, fazemos a coleta de dados. Após a coleta, é feita a apuração dos dados, ou seja, organizamos as informações. Mas como apresentar o resultado do estudo? Para isso utilizamos as tabelas e gráficos! Sumarizar significa resumir, condensar as tabelas e gráficos que, assim, servem para apresentar os dados das pesquisas coletados. Para tirar conclusões sobre um conjunto de dados coletados, devemos organizá-los, mas, mesmo após a organização, o volume de dados pode ser muito grande dificultando sua interpretação. Então, para facilitar, construímos tabelas. As tabelas podem ser as séries estatísticas ou distribuição de frequência que estudaremos nesta unidade. Além das tabelas, as informações obtidas numa pesquisa podem ser apresentadas através de gráficos que foram retirados do site: http://www.sei.ba.gov.br/images/releases_mensais/pdf/norma_tabular/norma s_apresentacao_tabular.pdf A elaboração de tabelas e gráficos deve seguir algumas regras que iremos estudar a seguir. Vamos lá! Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 28 | P á g i n a 1.2 Séries estatísticas Séries Estatísticas são tabelas que trazem dados resumidos de um estudo ou pesquisa em função da época, do local ou de uma categoria (CRESPO, 1995). Mas qual é a diferença entre quadro e tabela? Tanto os quadros como as tabelas dispõem as informações em linhas e colunas, porém, as tabelas permitem cálculos e leituras em diversas direções, enquanto os quadros apenas apresentam dados. Além disso, as tabelas exigem um rigor técnico de apresentação. Para trabalhos e publicações científicas, as tabelas devem seguir as Normas de Apresentação Tabular do IBGE. 1.2.1 Classificação Podemos classificar as séries estatísticas de acordo com a variação dos dados apresentados, essa variação ocorre em função do período, do local ou de espécie. Quando uma série estatística apresenta dados com variação do período, ou tempo, recebe o nome de histórica (ou cronológica ou temporal). Essa variação pode ser expressa em anos, meses, dias ou qualquer outra unidade temporal necessária. Exemplo: Fonte: Censo Demográfico do IBGE. Série geográfica (ou territorial ou espacial) apresenta informações em função do local: cidades, estados, países, etc. A época e o fenômeno estudados mantêm-se constantes. População brasileira – 1920/2000 Ano População (em milhões) 1920 30,6 1940 41,2 1950 51,9 1960 70,2 1970 93,1 1980 121,1 1991 146,8 2000 166,1 Neste exemplo, os dados sobre a população brasileira estão apresentados em função do tempo, logo recebe a classificação de série histórica. Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 29 | P á g i n a Exemplo: Áreas continentais - 2008 Continente Área (106 km2) Ásia 43,608 África 30,335 América do Norte 23,434 América do Sul 17,611 Antártida 13,340 Europa 10,498 América Central 1,915 Oceania 8,923 Fonte: Atlas Mundial Folha de S. Paulo. Já a série específica (ou categórica) mantém fixos o local e o período do estudo, variando a categoria dos dados. Observe o exemplo abaixo: Número de correspondências da semana Tipo Quantidade E-mails 1932 Cartas 94 Fax 44 Total 2070 Fonte: Revista Veja 20/04/2004 Todos os exemplos anteriores apresentam séries simples, ou seja, tabelas que contêm apenas duas colunas. Existem séries que necessitam de tabelas com maior número de colunas, são as chamadas séries conjugadas ou séries mistas. A classificação das séries conjugadas segue o mesmo critério das séries simples (histórica, geográfica ou específica), mas a sua classificação será composta por dois nomes, por exemplo, histórico-geográfica ou específico-geográfica. Acompanhe os exemplos a seguir e veja como é feita a classificação de séries conjugadas. Esta série é classificada como geográfica, pois apresenta a área em função do continente. Esta tabela apresenta a quantidade de correspondências recebidas em função do tipo (espécie ou categoria), por isso é classificada como série categórica. Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 30 | P á g i n a Exemplos: Número de municípios das regiões brasileiras – 1940/2001 Região 1940 1950 1960 1970 1980 1990 1997 2001 Norte 88 99 120 143 153 298 449 449 Nordeste 584 609 903 1.376 1.375 1.509 1.787 1.792 Sudeste 641 845 1.085 1.410 1.410 1.432 1.666 1.668 Sul 181 224 414 717 719 873 1.159 1.188 Centro-Oeste 80 112 244 306 317 379 446 463 Fonte: IBGE A série acima apresenta número de municípios em função da região e do ano. Por isso, será classificada como série histórico-geográfica. Terras Indígenas – Brasil – 2000 Região Demarcadas Não demarcadas Norte 175 131 Nordeste 42 25 Sudeste 23 5 Sul 28 33 Centro-Oeste 31 13 Total 299 207 Fonte: IBGE, Diretoria de Geociências Por apresentar dados sobre terras indígenas em função da região e de categoria (demarcadas e não demarcadas), essa série é classificada como específico-geográfica. Para classificar séries estatísticas, devemos observar, em função do que os dados estão sendo apresentados, tempo, local ou categoria. Nas tabelas de apenas duas colunas, observamos os dizeres da primeira coluna. Se for indicado tempo, seja em anos ou meses ou outra medida de tempo, sua classificação será histórica; se for indicado lugar, como cidades, estados, etc., será geográfica; caso indique espécie ou categoria, será específica. Variação de lugar. Variação de tempo. Variação de lugar. Variação de categoria Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 31 | P á g i n a Você sabia que, para classificação de sériesapresentadas por tabelas de três ou mais colunas, devemos observar as informações da primeira linha e da primeira coluna, analisando os dizeres – a que se referem? Tempo, lugar ou categoria? Após a identificação, associamos os nomes separando-os com hífen como: específico-geográfico. Em muitos casos as informações são apresentadas na forma de gráficos. Vejamos, a seguir, como apresentar os dados em gráficos. 1.2.2 Apresentação Gráfica O que você já sabe sobre a apresentação gráfica? Já pensou que importância tem esse tipo de representação na estatística? Reflita um pouco sobre isso e, depois, veja a definição que apresentaremos a seguir. Gráfico é a representação visual do fenômeno em termos de sua evolução ou das relações entre as variáveis nele envolvidas. Também se diz que é a forma mais adequada de transmissão de informação quando se quer acentuar aspectos visuais, instantâneos, globais, dinâmicos e expressivos e quando se deseja facilitar a comparação dos dados computados por meio das proporções entre as grandezas envolvidas.(...) O gráfico ideal é simples, claro e esteticamente agradável (...) (MILONE, 2004, p. 26 e 27) Gráfico é a representação visual de um fenômeno que utiliza eixos coordenados. Na construção de um gráfico, devemos evitar exageros nas cores, linhas e informações adicionais. Em trabalhos científicos ou publicações científicas, o objetivo principal é a informação e não o apelo visual. Assim como para tabelas, existem normas para apresentação de gráficos determinadas pela ABNT1 e pelo IBGE. Os gráficos podem ser de linhas, colunas ou barras, setores (pizza), pictogramas ou cartogramas. Não existe regra para definição do tipo de gráfico a ser utilizado, porém os gráficos de linhas ficam restritos para representar séries temporais ou evoluções históricas. Veja o exemplo a seguir: 1 ABNT: Associação Brasileira de Normas Técnicas População brasileira 1920/2000 0 20 40 60 80 100 120 140 160 180 1920 1940 1950 1960 1970 1980 1991 2000 Ano m ilh õe s de ha bi ta n te s Fonte: Censo Demográfico do IBGE. Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 32 | P á g i n a Os gráficos de barras e colunas possuem a mesma finalidade diferindo somente na posição dos retângulos. Damos preferência para barras quando os dizeres ou nomes a serem representados são extensos. Nada impede, no entanto, que você prefira o gráfico de colunas, nesse caso, os nomes devem ser escritos de baixo para cima. 0 10 20 30 40 50 Ásia África América do Norte América do Sul Antártida Europa Oceania América Central Áreas continentais (em milhões de quilômetros quadrados) Fonte: Atlas Mundial da Folha de São Paulo Os gráficos de setores, também chamados de pizza, devem ser utilizados quando se deseja ressaltar a participação de segmentos em relação ao todo. É adequado quando representamos no máximo sete dados, um número maior polui o gráfico e dificulta sua leitura. Os cartogramas são gráficos que utilizam mapas cartográficos como base para a apresentação de dados. Servem somente a séries geográficas, uma vez que os dados apresentados são referentes a lugares (países, estados, cidades, etc.). Os pictogramas são gráficos que utilizam desenhos no lugar das formas básicas para representar dados. Geralmente esses desenhos ilustram a natureza dos dados apresentados. Fonte: IBGE. Censo Demográfico 2000. Diponível em:http://www.favelaeissoai.com.br/comunidades_demog.php ?cod=19 Acesso em: 25/11/2010 Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 33 | P á g i n a Fonte: Disponível em http://confins.revues.org/docannexe/image/3483/img-5.png Acesso em 25/11/2010 Vimos duas formas de apresentar dados estatísticos : tabelas e gráficos. Veremos a seguir outra forma de apresentação e resumo de dados: as distribuições de frequência. 1.3 Distribuição de frequência 1.3.1 Conceito Tabelas de distribuição de frequência são aquelas que relacionam o valor da variável (ou um intervalo de valores) com sua frequência no conjunto de dados observados, ou seja, quantas vezes ela aparece no conjunto. As tabelas de distribuição de frequência podem ser construídas a partir do valor da variável ou de intervalos. Dessa forma, temos dois tipos de tabelas: COM INTERVALO ou SEM INTERVALO. Vejamos: Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 34 | P á g i n a SEM INTERVALO DE CLASSE COM INTERVALO DE CLASSE Número de cômodos ocupados por vinte famílias entrevistadas -Belo Horizonte 2005 x f 2 4 3 7 4 5 5 2 6 2 Total 20 Fonte: Dados fictícios O símbolo |– indica que o intervalo é fechado à esquerda e aberto à direita, por exemplo 2,9 |– 3,2, é de 2,9 inclusive até 3,2 exclusive, ou seja, os valores desse intervalo são de 2,9 até 3,1. A formatação das tabelas de distribuição de frequência é a mesma das séries estatísticas. 1.3.2 Dados brutos e rol Dados brutos ou tabela primitiva são os dados na forma como foram coletados. Rol conjunto obtido após a ordenação dos dados. Exemplo: Dados brutos: 13 25 35 25 25 15 Rol: 13 15 25 25 25 35 1.3.3 Elementos da distribuição As distribuições de frequência são formadas por elementos básicos, o nome de cada elemento e sua denominação ou símbolo devem ser bem observados, pois serão utilizados posteriormente na aplicação de fórmulas de cálculos estatísticos. Fique atento! ���� Classes (i): intervalo de variação da variável ou, simplesmente, os valores da variável. ���� Limite de classe (Ls e Li): extremos de cada classe. Limite inferior (Li) - o menor valor e limite superior (Ls) - o maior. ���� Amplitude de um intervalo (h): diferença entre os limites superior e inferior de uma classe. ���� Amplitude total (AT): diferença entre o limite superior do último intervalo e o limite inferior de primeiro intervalo. Nas distribuições sem intervalos, é a diferença entre o maior e o menor valor que a variável assume. Notas atribuídas a 28 produtos de informática pelo convênio Folha/USP São Paulo – 1996 Notas f 2,9 |– 3,2 1 3,2 |– 3,5 1 3,5 |– 3,8 2 3,8 |– 4,1 5 4,1 |– 4,4 11 4,4 |– 4,7 8 Total 28 Fonte: Folha de S. Paulo, 22-01-1997 Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 35 | P á g i n a ���� Amplitude amostral (AA): diferença entre o valor máximo e o mínimo observado na amostra. Observe que, numa distribuição sem intervalo de classe, AA = AT. ���� Ponto médio de uma classe (pm): média aritmética entre os limites do intervalo. ���� Frequência simples (f): número de observações correspondente a uma classe ou um valor da variável. Algumas fórmulas estatísticas utilizam esses elementos e símbolos, por isso fique atento! 1.3.4 Elaboração da tabela A elaboração da tabela sem intervalo de classe é simples: na primeira coluna, escrevemos os valores que a variável assume e, na segunda coluna, a frequência, ou seja, quantas vezes ela aparece no conjunto de dados. Já a construção da tabela de distribuição de frequência com intervalo é mais elaborada. Devemos determinar o número de classes a serem utilizadas, os limites das classes, e, então, determinara frequência de cada classe. O número de classes a serem consideradas e os limites das classes podem ser estipulados pelo pesquisador de forma conveniente de acordo com os dados a serem apresentados, mas existem algumas fórmulas que orientam a escolha do número de classe e seus limites. Veja a seguir: Sendo i o número de classes e N o número de dados do conjunto, temos: raiz Sturges Milone Ni = Ni log3,31+= Ni ln21+−= Os limites dos intervalos podem ser calculados pela fórmula h= AT/i, lembrando que a amplitude da classe (h) deve ser arredondada sempre para mais (CRESPO, 1995, p. 62) e deve respeitar a precisão dos dados (número de casa decimais). Lembre-se de que o limite superior da classe é excluído pelo uso do símbolo |–, logo, para determinar AT, fazemos AA+1, ou seja, o maior valor do conjunto menos o menor mais um. Na maioria das vezes, devido a arredondamentos, o valor de i x h é diferente de AT. Para que a diferença não fique acumulada de um lado só da distribuição, fazemos um ajuste para centralizar e distribuir a diferença, repartindo igualmente entre o início e o fim da AT. Dessa forma, temos a AT a ser considerada na construção dos limites das classes (MILONE, 2004, p. 39). Após a definição do número de classes (i), da amplitude da classe (h) a ser considerada e da amplitude total ajustada (AT), determinamos os limites das classes somando h ao limite inferior da primeira classe para obter o limite superior, este será o inferior da segunda classe e, assim, Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 36 | P á g i n a sucessivamente até chegar ao limite superior estipulado pela AT ajustada. Note que o limite inferior da primeira e o limite superior da última classe são iguais aos estipulados pela AT ajustada. Agora é só determinar a frequência de cada classe. Acompanhe esse exemplo: Considere os resultados, abaixo, referentes à demanda semanal (número em milhares de caixas), de certo produto, observada em 48 semanas, em um estabelecimento comercial de médio porte. 248 249 250 250 251 252 253 255 256 257 258 258 259 260 260 260 262 262 263 263 264 264 264 264 265 265 265 265 265 266 266 266 266 266 266 266 266 267 267 268 268 268 268 268 268 269 270 270 Fonte: Dados fictícios Construa uma tabela de distribuição de frequência com intervalo de classe. 1º) Determinação do número de classes (Pela regra de Sturges, temos): 2º) Determinação da amplitude total (AT): A amplitude total (AT) a ser considerada será 23 (AA + 1, logo devemos ter limites que vão de 248 até 271, já que o limite superior é excluído da classe pela utilização do símbolo |–. 3º) Determinação da amplitude da classe (h): 4 2857,3 7 23 ≅ == = h h i ATh 4º) Ajuste AA = máx – mín � AA = 270 – 248 = 22 AT = 23 � h x i = 7 x 4 = 28 � 28 – 23 = 5 Como i deve ser um número natural arredondamos para 7. O arredondamento de h é sempre para mais e deve respeitar a precisão dos dados. Como nossos dados são números inteiros, utilizaremos 4. 7 5481,6 48log3,31 log3,31 ≅ = += += i i i Ni Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 37 | P á g i n a A diferença entre AT calculada e o valor de h x i deve ser repartida entre o início e o fim da distribuição. Como a diferença é um valor ímpar (5), não pode ser repartida igualmente; faremos duas partes desiguais (2 e 3), ficando a maior no final da amplitude total. A princípio, consideramos de 248 até 271, ajustando a diferença, subtraímos 2 no início e acrescentamos 3 ao final; dessa maneira, a amplitude total ajustada será: A amplitude total (AT) ajustada, a ser considerada na distribuição, é de 246 até 274. 5º) Determinação dos limites dos intervalos Começamos pelo limite inferior determinado pela AT ajustada (246) e acrescentamos h para determinar o limite superior da primeira classe, esse será o limite inferior da segunda; acrescentamos h e teremos o limite superior da segunda classe que será, também, o limite inferior da terceira e, assim, sucessivamente até atingir o limite superior estipulado pela AT ajustada (274). Observe: 246 250 254 258 262 266 270 274 Os intervalos a serem considerados são: Demanda f 246 |– 250 250 |– 254 254 |– 258 258 |– 262 262 |– 266 266 |– 270 270 |– 274 Total Fonte: Dados fictícios 6º) Determinação da frequência de cada intervalo. Com os limites das classes prontos, devemos determinar a frequência pela contagem de elementos que pertencem a cada uma das classes. Como os dados já estão organizados, essa tarefa fica fácil. Observe o conjunto: 248 249 250 250 251 252 253 255 256 257 258 258 259 260 260 260 262 262 263 263 264 264 264 264 265 265 265 265 265 266 266 266 266 266 266 266 266 267 267 268 268 268 268 268 268 269 270 270 Fonte: Dados fictícios 248 – 2 = 246 271 + 3 = 274 Agora é só determinar a frequência de cada intervalo de acordo com o conjunto de dados! + 4 + 4 + 4 + 4 + 4 + 4 + 4 Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 38 | P á g i n a A primeira classe contempla valores de 246 até 250, excluindo esse último; logo, os valores do conjunto que pertencem ao primeiro intervalo são 248 e 249. O 250 pertence ao segundo intervalo (250 |– 254). Dessa forma, a frequência da primeira classe será 2. A segunda classe engloba os números 250, 251, 252 e 253, sua frequência será 5 e assim sucessivamente. Demanda (em milhares de caixas) f 246 |– 250 2 250 |– 254 5 254 |– 258 3 258 |– 262 6 262 |– 266 13 266 |– 270 17 270 |– 274 2 Total 48 Fonte: Dados fictícios O somatóro das frequências das classe deve ser igual ao número de elementos no conjunto original. Dessa forma está pronta e pode ser analisada. 1.3.5 Tipos de frequência Todas as distribuições podem apresentar as seguintes colunas de frequência: Frequência simples (f) � Resultante da contagem do número de elementos da amostra pertencente a cada classe. Frequência acumulada crescente (Fac) � Frequência simples da classe somada a todas as frequências simples das classes anteriores a ela. Frequência acumulada decrescente (Fad) � Frequência simples da classe somada com todas as frequências simples das classes posteriores a ela. Frequência simples relativa (fr) � Razão entre a frequência simples da classe e a frequência total. Pode ser informada em porcentagem (%) ou em número decimal. Para o primeiro caso, o total deve ser 100 e para o segundo deve ser 1. Devido a sucessivos arredondamentos, pode acontecer do total não ser exatamente igual a 100 (ou igual a 1); nesses casos, devemos ajustar a frequência da seguinte forma: caso o somatório ultrapasse (100,1; por exemplo), devemos diminuir a diferença (0,1) na menor frequência, caso o somatório seja menor (99,9; por exemplo), devemos acrescentar a diferença na maior frequência. Se houver empate na maior ou menor frequência, devemos pegar a segunda maior ou a segunda menor. Esse princípio deve-se ao fato de que não iremos alterar a ordem de grandezas entre as frequências fazendo esse ajuste, já que o maior continua sendo o maior e o menor continua sendo o menor. Está pronta a tabela de distribuiçãode frequência com intervalos de classe! Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 39 | P á g i n a Frequência acumulada relativa (Fr) � frequência simples relativa da classe somada com todas as frequências simples relativas das classes anteriores a ela. Assim como a frequência simples relativa, ela pode ser informada em porcentagem ou número decimal. Como não existe significado para o somatório das colunas de frequências acumuladas, utilizamos dois pontos (··) nas células relativas a esses totais na tabela. Acompanhe a determinação dessas frequências no exemplo: Demanda (em milhares de caixas) f Fac Fad fr (%) Fr 246 |– 250 2 2 48 4,2 250 |– 254 5 7 46 10,4 254 |– 258 3 10 41 6,3 258 |– 262 6 16 38 12,5 262 |– 266 13 29 32 27,1 266 |– 270 17 46 19 35,4 270 |– 274 2 48 2 4,2 Total 48 •• •• 100,1 Fonte: Dados fictícios Perceba que, ao fazer o somatório de fr, obtemos 100,1. Devemos ajustar a frequência para que o total seja 100. Como há excesso de 0,1, devemos diminuir essa diferença da menor frequência, que seria 4,2; porém, existem duas classes com essa frequência, então, devemos utilizar a segunda menor 6,3 referente à classe 254 |– 258, passa ser então 6,2. Demanda (em milhares de caixas) f Fac Fad fr (%) Fr 246 |– 250 2 2 48 4,2 4,2 250 |– 254 5 7 46 10,4 14,6 254 |– 258 3 10 41 6,2 20,8 258 |– 262 6 16 38 12,5 33,3 262 |– 266 13 29 32 27,1 60,4 266 |– 270 17 46 19 35,4 95,8 270 |– 274 2 48 2 4,2 100 Total 48 •• •• 100,0 •• Fonte: Dados fictícios Cada um dos números das colunas de frequência possui um significado. Observe os valores da 5ª classe: f: Em 13 das 48 semanas pesquisadas, a demanda foi entre 262 e 265 milhares de caixas. Fac: Em 29 semanas, a demanda foi de até 265 mil caixas. Fad: 39 semanas apresentaram demanda de pelo menos 262 mil caixas. fr: Em 27,1% das semanas, a demanda foi de 262 a 265 mil caixas. Fr: Em 60,4% das semanas, a demanda foi de até 265 mil caixas. 1.3.6 Histograma e polígono de frequência Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 40 | P á g i n a As representações gráficas das distribuições de frequência recebem o nome de histograma e polígono. Os histogramas são formados por colunas justapostas e podem ser elaborados utilizando qualquer uma das frequências estudadas e o polígono é um gráfico de linha e pode ser construído apenas a partir das frequências simples (absoluta ou relativa), ambos apresentam as frequências no eixo vertical y e os valores da variável. Para o nosso exemplo veja o histograma e o polígono, ambos construídos a partir da frequência absoluta simples. Fonte: Dados fictícios Bons estudos e até a próxima unidade! Mas, antes, não deixem de visitar as próximas seções. Demanda (milhares de caixas) f Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 41 | P á g i n a 2. Teoria na Prática Ao analisar um gráfico, devemos observar todas as informações apresentadas bem como o comportamento do fenômeno representado, identificar máximos, mínimos, padrões de comportamento e sempre levar em consideração o tipo de dado e sua unidade de medida. Os gráficos, que apresentam dois ou mais tipos (cores ou padrões) de linhas, colunas ou barras, representam séries conjugadas (ou mistas), nesses casos devemos analisar os dados em conjunto e separadamente. Podemos perceber que o gráfico apresenta os dados de uma série histórico-categórica pois apresenta informações em função do tempo (anos, eixo horizontal) e de categorias (faixa estário, legenda). Os dados estão na forma percentual. O percentual de crianças e jovens (representado pela linha escura) na população brasileira está diminuindo enquanto o percentual de idosos (representado pela linha clara) está aumentando. Vejamos, agora, alguns itens a serem analisados em relação às informações do gráfico. Considere as seguintes afirmativas e julgue-as em CERTO ou ERRADO. A. A partir de 1960, o percentual de crianças e jovens no Brasil tem diminuído. Crianças e jovens são representados no gráfico pela linha escura. Podemos perceber que o maior percentual registrado para essa parcela da população é registrado em 1960 e, a partir daí, esse número diminui ano a ano. Portanto, a afirmativa está CERTA. B. Em 1950, crianças, jovens e idosos representavam 46% da população brasileira. Crianças e jovens são representados no gráfico pela linha escura e idosos pela linha clara. Em 1950, temos, no gráfico, crianças e jovens 41,8% e idosos 4,2%, somando temos 46%, logo a afirmativa está CERTA. C. Se, em 2000, a população brasileira era de 170 milhões de habitantes, mais de 15 milhões de brasileiros eram idosos. Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 42 | P á g i n a Em 2000, o percentual de idosos na população brasileira era de 8,6%, se considerarmos uma população nesse ano de 170 milhões de habitantes, podemos calcular o número de habitantes idosos por regra de três simples, veja! milhõesx x x x milhões 62,14 100 1462 1462100 6,8170100 %6,8 %100170 == = ×= → → Portanto, a afirmativa está ERRADA. D. Se, em 2005, a população brasileira era de 180 milhões de habitantes, mais de 115 milhões de brasileiros tinham de 15 a 59 anos. Nesse caso, devemos, primeiramente, determinar o percentual da população com idade de 15 a 59 anos. Essa população não é apresentada diretamente no gráfico, mas pode ser determinada calculando o percentual da população de 0 a 14 anos e com 60 ou mais, que são os dados fornecidos pelo gráfico. 6,644,35100 %4,35 %4,860 %27140 =− = = maisou a A população com idade de 15 a 59 anos representa 64,6% da população brasileira em 2005. Considerando 180 milhões de habitantes teremos: milhõesx x x x milhões 28,116 100 11628 11628100 6,64180100 %6,64 %100180 == = ×= → → Portanto, a afirmativa está CERTA! Disciplina: Estatística Aplicada Autor: Janine Velloso Núcleo de Educação a Distância | Newton Paiva 43 | P á g i n a 3. Síntese Vamos rever os principais conceitos estudados na unidade 2? Séries estatísticas são tabelas que apresentam dados que podem ser operados ou analisados em diversas direções. Podem ser classificadas em temporal, geográfica ou específica quando possuem apenas duas colunas (séries simples) ou através da combinação de dois desses nomes, quando possuem três ou mais colunas (séries conjugadas). Tabelas de distribuição de frequência são aquelas que relacionam o valor da variável (ou um intervalo de valores) com sua frequência no conjunto de dados observados, ou seja, quantas vezes ela aparece no conjunto. As tabelas de distribuição de frequência podem ser construídas a partir do valor da variável ou de intervalos; dessa forma, temos dois tipos de tabelas: COM INTERVALO ou SEM INTERVALO. Gráfico é a representação visual de um fenômeno que utiliza eixos coordenados. Na construção de um gráfico, devemos evitar exageros nas cores, linhas e informações adicionais. Para tabelas de distribuição de frequência, temos tipos específicos de gráficos que utilizam as figuras padrão como, colunas e linhas, porém com disposições e funções diferentes,
Compartilhar