Baixe o app para aproveitar ainda mais
Prévia do material em texto
4 2 , 4 53 225 225 53 25 . 9 . 53 = = = = = z z z z z 4 2,4 53 225 22553 25.9.53 z z z z z Disciplina: Estatística Aplicada Autor: Janine Velloso Unidade de Educação a Distância ESTATÍSTICA APLICADA Autora: Janine Velloso do Amaral Belo Horizonte / 2012 ESTRUTURA FORMAL DA UNIDADE DE EDUCAÇÃO A DISTÃNCIA REITOR LUÍS CARLOS DE SOUZA VIEIRA PRÓ-REITOR ACADÊMICO SUDÁRIO PAPA FILHO COORDENAÇÃO GERAL AÉCIO ANTÔNIO DE OLIVEIRA COORDENAÇÃO TECNOLÓGICA EDUARDO JOSÉ ALVES DIAS COORDENAÇÃO DE CURSOS GERENCIAIS E ADMINISTRAÇÃO HELBERT JOSÉ DE GOES COORDENAÇÃO DE CURSOS LICENCIATURA/ LETRAS LAILA MARIA HAMDAN ALVIM COORDENAÇÃO DE CURSOS LICENCIATURA/PEDAGOGIA LENISE MARIA RIBEIRO ORTEGA INSTRUCIONAL DESIGNER DÉBORA CRISTINA CORDEIRO CAMPOS LEAL KELLY DE SOUZA RESENDE PATRICIA MARIA COMBAT BARBOSA EQUIPE DE WEB DESIGNER CARLOS ROBERTO DOS SANTOS JÚNIOR GABRIELA SANTOS DA PENHA LUCIANA REGINA VIEIRA ORIENTAÇÃO PEDAGÓGICA FERNANDA MACEDO DE SOUZA ZOLIO RIANE RAPHAELLA GONÇALVES GERVASIO AUXILIAR PEDAGÓGICO ARETHA MARÇAL DE MACÊDO SILVA MARÍLIA RODRIGUES BARBOSA REVISORA DE TEXTO MARIA DE LOURDES SOARES MONTEIRO RAMALHO SECRETARIA LUANA DOS SANTOS ROSSI MARIA LUIZA AYRES MONITORIA ELZA MARIA GOMES AUXILIAR ADMINISTRATIVO THAYMON VASCONCELOS SOARES MARIANA TAVARES DIAS RIOGA AUXILIAR DE TUTORIA FLÁVIA CRISTINA DE MORAIS MIRIA NERES PEREIRA RENATA DA COSTA CARDOSO Sumário Unidade 1 ................................................................................................................7 Unidade 2 ................................................................................................................27 Unidade 3 ................................................................................................................44 Unidade 4 ................................................................................................................64 Unidade 5 ................................................................................................................77 Legenda 3 5 , 2 53 135 135 53 15 . 9 . 53 = = = = = y y y y y 3 5,2 53 135 13553 15.9.53 y y y y y Nosso Tema 2 2 , 2 53 117 117 53 13 . 9 . 53 = = = = = x x x x x 2 2,2 53 117 11753 13.9.53 x x x x x Sintese 9 , 1 875 , 1 8 15 3 , 8 33333333 , 8 6 5 @ = ¸ @ = ¸ L Referências Bibliográficas 7 5481 , 6 48 log 3 , 3 1 log 3 , 3 1 @ = + = + = i i i N i 7 5481,6 48log3,31 log3,31 i i i Ni Saiba mais ) ( 2 ) ( 1 2 1 1 post ant f f D f f D h D D D Li Mo - = - = × + + = Reflexão 3 , 4 3 , 0 3 6 6 1 , 4 3 8 11 6 5 11 2 1 = × + + = = - = = - = Mo D D Material complementar Atividade 2 n Dica 10 2 20 2 > ® > ® > Fac Fac n Fac Importante 2 n Fac > Nosso Tema Você já ouviu falar em estatística? Alguns podem dizer que não, mas é pouco provável. Talvez apenas não tenham associado às informações que lêem nos jornais, ouvem nos rádios ou que assistem pela TV com o conceito de estatística. Em nosso dia a dia, a estatística está sempre presente. Por exemplo, quando você assiste à previsão do tempo, aos cálculos de temperatura máxima, mínima e à previsão de chuva, tudo isso está relacionado a cálculos estatísticos. Na área econômica, temos os indicadores econômicos como o IPC (Índice de Preços ao Consumidor), o PIB (Produto Interno Bruto) e muitos outros. Todos esses números são calculados com base estatística e visam descrever o panorama econômico de um país em determinado período. Outro exemplo muito importante é o Censo Populacional feito pelo IBGE (Instituto Brasileiro de Geografia e Estatística). O censo populacional é uma pesquisa feita com toda a população de um país. Ele coleta informações sobre as condições de vida da população (escolaridade, saúde, saneamento básico, entre outros). 14 2 28 2 > ® > ® > Fac Fac n Fac Mas qual a importância desse estudo? A partir da análise dos dados coletados pelo Censo, o governo avalia suas políticas públicas nas áreas da saúde, educação, distribuição de renda etc., e é capaz de redirecionar recursos e criar novas políticas que atendam as necessidades da população. No campo empresarial, a estatística está presente de diversas formas. Pode estar no controle de qualidade numa linha de produção, na pesquisa de opinião de consumidores sobre um novo produto. Esses são apenas alguns exemplos. Nesta unidade, você encontrará uma introdução ao estudo de estatística. Nosso objetivo é que conheça alguns conceitos e definições, base para nosso estudo. Vamos em frente! 24 , 4 3 , 0 11 9 14 1 , 4 2 ) ( @ × - + = × - + = Md h f Fac n Li Md ant Reflexão Você deve estar se perguntando: “Por que estudar estatística?” Como futuro profissional da área de gestão, você deverá ser capaz de criar e avaliar estratégias, ações internas e externas que visem não só à permanência de sua empresa no mercado de forma competitiva, mas, também, ao crescimento dela. · Mas como fazer isso? · Quais as necessidades dos meus colaboradores? · Quais as necessidades dos meus clientes? · Qual a posição da minha empresa em relação aos concorrentes? · O que fazer para aumentar os lucros? · O que fazer para diminuir os custos? Essas e outras questões podem ser respondidas com o auxílio da estatística. Unidade 1: Introdução 1. Conteúdo Didático 1.1. Introdução Estatística é uma ciência que compreende todo um conjunto de métodos para coletar, organizar, resumir, apresentar, analisar um (ou mais) conjunto(s) de dados de tal modo que permitam quantificá-los, qualificá-los ou ordená-los para que possamos concluir, deduzir ou predizer propriedades, eventos ou estados futuros. Para facilitar o entendimento, a estatística pode ser dividida em três grandes áreas: 4 n k × · Estatística descritiva: responsável pelo tratamento preliminar dos dados, resumo, apresentação e análise de dados. · Probabilidade: estudo de fenômenos de caráter aleatório, aqueles de resultados possíveis, mas incertos. · Inferência: aplicação de técnicas que permitem extrapolar resultados da pesquisa feita num pequeno grupo (amostra) para um grupo maior (população). Ao longo do curso, iremos trabalhar com as duas primeiras áreas Estatística Descritiva e Probabilidade, a Inferência é uma área mais avançada da Estatística e não será tratada em nossa disciplina. 1.2. Arredondamento de dados Ao longo de nosso curso, faremos muitos cálculos que necessitarão de arredondamento de resultados. Para fazer o arredondamento de números devemos observar algumas regras. Veja a seguir! Para fazer arredondamentos, devemos definir primeiramente qual o número de casas decimais desejado. De maneira geral, utilizamos arredondamento de uma ou duas casas. Essa definição é feita pelo pesquisador levando em consideração a natureza dos dados e objetivos da pesquisa. Existem, apenas, duas regras para arredondamento que devem ser observadas. · Se o primeiro número a ser desprezado for 0, 1, 2, 3 ou 4 devemos manter o útlimo a permanecer. · Se o primeiro número a ser desprezado for 5, 6, 7, 8 ou 9 devemos aumentar o último a permanecer em uma unidade. Veja alguns exemplos: 5 4 20 1 4 > ® × > ® × > Fac Fac n k Fac 1.3. Variáveis Numa pesquisa ou estudo, a característica ou o fenômeno de interesse recebe o nome de variável (MAGALHÃES E LIMA, 2001). Por exemplo, quando perguntamos a idade dos alunos numa turma, a variável em questão é a idade. Quando retiramos alguns parafusos numa linha de produção para avaliar o peso, a variável em questão é peso. As variáveis podem ser classificadas como: 7 4 28 1 4 > ® × > ®× > Fac Fac n k Fac As variáveis qualitativas podem ser classificadas em: · Nominal, quando indicam categorias mutuamente exclusivas (como sexo, religião, nacionalidade e todas as questões cuja resposta é sim ou não); · Ordinal, quando indicam possição hierárquica ou sequência classificatória (como classes sociais, lista de concursos); · Intervalar, quando utiliza intervalos de valores para classificar (como filmes em péssimo, ruim, bom, ótimo ou excelente). As variáveis quantitativas podem ser classificadas em: · Discretas, quando assumem valores a partir de contagem (geralmente números inteiros); · Contínuas, quando podem assumir qualquer valor num dado intervalo, como medidas de peso e estatura, por exemplo. 98 , 3 3 , 0 5 4 7 8 , 3 4 1 ) ( = × - + = × - × + = Q h f Fac n k Li Q ant k Fonte: Autora 100 n k × 100 n k × Vamos agora definir alguns conceitos que serão utilizados em nosso estudo. 1.4. População e amostra Nos estudos estatísticos, o objetivo é conhecer ou descrever características ou propriedades para um conjunto de dados, para, a partir daí, tirar conclusões. Ao conjunto de todos os elementos que possuem uma (ou um conjunto) de características em comum, de interesse da pesquisa, ou seja, objeto de estudo, damos o nome de população ( DOWING; CLARK, 2003). Muitas vezes não é possível pesquisar todos os elementos de uma população. A população pode ser grande e de difícil acesso aos pesquisadores, gerando um custo muito alto, ou ainda, grandes volumes de dados que podem dificultar ou demorar muito para serem analisados. Como seria possível uma empresa entrevistar todos os seus consumidores? – um problema de tempo e dinheiro. Existem, ainda, razões éticas, por exemplo, nas pesquisas feitas com seres vivos. Ou, ainda, situações, onde é realmente impossível, como no caso do exame de sangue de uma pessoa. Não poderíamos extrair todo o sangue para que fosse feita a pesquisa, não é mesmo? 17 100 20 85 100 > ® × > ® × > Fac Fac n k Fac E, então, se não podemos acessar todos os elementos ou indivíduos da população, o que fazer? Utilizamos uma parte dessa população. Esse subconjunto de elementos ou indivíduos, que pertence à população, recebe o nome de amostra. 100 n k × 100 n k × Fonte: Autora Existem regras a serem seguidas para seleção de amostras: são as técnicas de amostragem. Veja no próximo tópico. 1.4.1. Técnicas de amostragem Para que possamos tirar conclusões sobre uma população, tendo como base dados obtidos numa amostra, devemos garantir que a amostra represente a população como um todo. Caso contrário, poderíamos chegar a conclusões equivocadas (MILONE, 2004). Um exemplo claro de como o plano de amostragem é importante, foi o acontecido numa pesquisa de intenção de voto em 1936, durante as eleições presidenciais dos Estados Unidos da América, publicada no Literary Digest. O Literary ouviu a opinião de 2 milhões de pessoas (...). A pesquisa predisse uma fácil vitória para Alfred Landon, quando, na realidade, Franklin D. Roosevelt venceu por ampla margem (DOWNING & CLARK, 2003, pág.177). Ao fazer a seleção da amostra, foi utilizada a lista telefônica. Acontece que, naquele tempo, as pessoas que possuíam telefone não representavam a população adequadamente; logo, essa não era uma amostra representativa (DOWNING & CLARK, 2003).Mas como garantir uma amostra representativa? Ocorre que o melhor sistema de escolha de amostra consiste em não adotar qualquer sistema – em outras palavras, a amostra deve ser selecionada de modo completamente aleatório. O sistema deve ser delineado de modo completamente aleatório. O sistema deve ser delineado de modo que todos tenham a mesma chance de serem incluídos na amostra. E não somente isso – o sistema deve ser planejado de modo que cada amostra que possamos conceber tenha a mesma chance de ser a amostra que efetivamente escolhemos. (DOWNING & CLARK, 2003, p.169). Apesar das amostras aleatórias, ou seja, de elementos sorteados ao acaso geralmente representarem adequadamente uma população, devemos ressaltar certos casos. Seja qual for o método, o importante é a chance de dada característica populacional aparecer na amostra: método ruim é aquele em que tal chance é muito diferente da proporção populacional; método bom é aquele em que a amostra é representativa, isto é, parece uma miniatura da população em estudo, denunciando suas propriedades e proporções. (MILONE, 2004, p. 13). As amostras podem ser probabilísticas ou não probabilísticas. A primeira prevê seleção ao acaso, equivalente a um sorteio, uma seleção aleatória dos elementos da amostra, em que cada elemento da população tem uma chance de participar da amostra, conhecida e diferente de zero. Os três principais métodos de amostragem probabilística são: Amostragem Aleatória Simples, Amostragem Sistemática e Amostragem Estratificada. Amostragem probabilística é a seleção de elementos ao acaso. Pode ser realizada com reposição, em que o elemento é sorteado e volta à população, podendo ser sorteado novamente; ou sem reposição, em que o elemento selecionado não retorna à população. Na prática, utilizamos primordialmente a amostragem sem reposição – suponha que cada elemento seja uma pessoa que irá responder a um questionário. Fica sem sentido e incômodo ao entrevistado responder a um mesmo questionário mais de uma vez. A amostragem não probabilística é aquela determinada pelo pesquisador, por isso é subjetiva e depende do julgamento de quem a realiza. Pode ser intencional, quando o elemento é selecionado pelo pesquisador; ou voluntária, quando os elementos populacionais apresentam-se espontaneamente para o estudo (MILONE, 2004, pág. 15). Esse tipo de amostragem pode ainda ser chamada de amostragem por conveniência (DOWNING & CLARK, 2003, pág. 178): 17 100 20 85 = × Fonte: Autora Veja a seguir como funcionam as técnicas de amostragem! 1.4.2. Amostragem não probabilística 5 4 17 100 20 85 85 = > × > P Classe Fac Fac a Mas se o pesquisador selecionar os elementos a serem entrevistados ou observados, não será? possível tender o resultado ao desejado, sem refletir, necessariamente, a realidade? Sim, de fato isso é verdade! Mas um pesquisador comprometido com a verdade e, consciente de seu papel na sociedade, não age dessa maneira. Mesmo que tenha selecionado, ele mesmo, intencionalmente os elementos da amostra, não significa que o estudo tenha sido tendencioso. Esse tipo de amostragem é indicado para populações pequenas ou conhecidas a fundo pelo pesquisador ou, ainda, quando o estudo trata de assunto delicado ou constrangedor (MILONE, 2004, pág. 15). É difícil convencer uma transeunte a dar informações sobre sua vida sexual, por exemplo, ou a tomar um novo medicamento que será testado num grupo de pessoas. Daí a importância desse tipo de amostragem. Mas devemos tomar cuidado quanto às generalizações feitas com dados coletados em amostras não probabilísticas, pois eles não podem ser submetidos à inferência estatística, já que essa técnica aplica-se somente a amostras probabilísticas. Contudo, não perdem o efeito de retratar uma realidade, devemos apenas informar de maneira criteriosa como a amostra foi selecionada e o motivo de se optar pela amostragem não probabilística. Vejamos agora como funcionam as técnicas de amostragem probabilísticas. 1.4.3. Amostragem aleatória simples É a seleção de elementos para composição de amostra por sorteio ao acaso. Nela, todos os elementos têm igual chance de serem selecionados. Para que seja realizada, é necessária uma listagem ou banco de dados com todos os elementos da população, o que pode, em alguns casos, ser um empecilho. O sorteio é equivalente a escrever o nome ou número identificador de cada elemento da população em um papel, colocar numa urna e sacar os elementos para constituir a amostra; porém é uma tarefa difícil, dependendo do número de elementos da população. Para simplificar e agilizar, utilizamos a tabela de númerosaleatórios (TNA) ou a geração de números aleatórios por programas de computador (o Excel é um deles) para substituir o sorteio. Para fazer um sorteio utilizando a tabela de números aleatórios (TNA), o pesquisador escolhe um número de linha e coluna para o início da leitura, determinando também o sentido em que a leitura seguirá. A seleção de elementos, no sorteio, deve respeitar o tamanho da amostra e a natureza da codificação atribuída aos elementos da população. Vejamos a TNA apresentada abaixo. Ela contém 25 linhas numeradas para facilitar a localização dos números e 45 colunas, agrupadas em 9 colunas. Observe! 39 4 389090 4 3 0 11 9 6 19 1 4 5 6 19 100 28 70 70 , , , , , P Classe , Fac Fac a » = × - + = > × > x TNA – Tabela de números aleatórios 1 32426 18772 76910 52223 05238 68340 83545 45972 09442 2 67794 12710 42460 24780 90030 02961 99571 10659 00589 3 21256 08828 23715 26783 59980 89226 13119 19586 76089 4 80360 59202 44605 90518 97349 88563 98942 00781 92871 5 34071 34511 57120 93221 40697 10655 66882 34698 89237 6 32881 71932 63989 58772 21742 46193 81901 50005 20858 7 43091 69604 00583 50492 07066 11961 87265 51507 70217 8 19070 54599 35352 13977 88932 26457 60040 79605 23543 9 04717 73548 32490 08310 30442 95401 57403 56354 70997 10 42311 73906 51389 08515 48005 81686 61784 47462 49884 11 60279 98234 81917 24828 57425 96298 63694 14805 16525 12 18021 57806 35893 30858 77669 11701 38324 23343 74036 13 07024 96703 45757 97743 59126 92698 06885 56983 48849 14 00349 41304 68570 51571 98947 77465 02813 10057 92704 15 52314 44815 53961 76310 62141 10876 31555 56342 54702 16 96071 18088 62008 99879 37250 50233 59561 98799 27858 17 35300 70566 54528 41787 14514 60591 83810 73565 03702 18 99013 14385 96209 88567 33500 27295 90170 36321 33600 19 28832 80419 18474 57848 50193 67892 89323 62861 74689 20 77111 61381 44258 79367 82524 92661 47739 19420 42051 21 69763 60054 13373 60715 99063 17709 46003 74304 57209 22 19353 87117 93237 03310 27611 85279 42926 16244 56277 23 94208 35632 60830 32594 29330 75521 10978 92870 96173 24 40720 35067 14705 36686 10027 00682 21659 14780 71530 25 34357 38587 84847 03914 64454 24832 93534 54344 33008 Fonte: Autora Vamos, como exemplo, localizar o número na 12ª linha e 8ª coluna. O número indicado é o 8. A partir daí, o sorteio pode continuar para baixo, seguindo o sentido da coluna (o próximo seria 7) ou para a direita seguindo a linha (o próximo seria 0, que representa o número 10) ou em qualquer outra direção preestabelecida pelo pesquisador. Perceba que, fazendo o sorteio de números de um algarismo, poderíamos sortear no máximo 10 elementos sem repetição, (1 a 9, e o 0 representa o número 10), mas, e se nossa população possuir 80 elementos? Temos que garantir que todos participem do sorteio! Então, sortearemos números de dois algarismos, utilizando a coluna indicada e a seguinte. Para o exemplo citado, caso fossem sorteados números de dois algarismos, o primeiro seria o 80 (8ª e 9ª colunas), veja na tabela! 11 60279 98234 81917 12 18021 57806 35893 13 07024 96703 45757 14 00349 41304 68570 15 52314 44815 53961 16 96071 18088 62008 17 35300 70566 54528 Fonte: Autora Como faremos amostragem sem repetição, caso o número sorteado seja repetido ou esteja fora da população (por exemplo: população com 80 elementos, sorteado o elemento 97), ele será desconsiderado ou ignorado, continuando o sorteio até completar o número de elementos da amostra. Vamos a um exemplo! Os custos médios (em reais) de determinado produto, produzido em um mesmo setor, com a utilização de um mesmo processo, foram observados e registrados em 30 diferentes remessas. Os valores são apresentados a seguir. Extraia uma amostra aleatória simples de tamanho n = 6. TNA 13a L e 13a C. 146 119 118 116 136 106 153 122 139 118 143 116 106 129 122 127 145 120 117 133 141 130 146 124 131 136 141 133 144 133 Fonte: Autora O primeiro passo é codificar a população, atribuindo um número a cada elemento. O sentido da numeração é preestabelecido pelo pesquisador. Aqui utilizaremos o número da esquerda para direita. 1 146 2 119 3 118 4 116 5 136 6 106 7 153 8 122 9 139 10 118 11 143 12 116 13 106 14 129 15 122 16 127 17 145 18 120 19 117 20 133 21 141 22 130 23 146 24 124 25 131 26 136 27 141 28 133 29 144 30 133 Essa será a numeração a ser sorteada. Precisamos de 6 elementos (numerados de 1 a 30), sorteados pela TNA 15a L e 13a C (consideraremos as colunas 13 e 14, pois precisaremos de números com dois algarismos), seguindo o sentido da coluna para baixo. Como os elementos da população estão numerados de 1 a 30, o sorteio será de números de dois algarismos, desprezando os números repetidos e maiores de 30. Sorteio: o primeiro número é o 9, mas queremos com dois algarismos, logo é 96, que não faz parte da população e será ignorado. Seguimos as colunas para baixo, o próximo é 00 (que representa o 100 e também não faz parte da população e será desprezado), continuamos assim até obter a quantidade de elementos válidos desejada. Observe a leitura da tabela! 14 00349 41304 68570 51571 15 52314 44815 53961 76310 16 96071 18088 62008 ( ) [ ] 83 , 26 8285714286 , 26 6 , 375 14 1 4 , 128066 128442 14 1 15 1386 128442 14 1 1 1 2 2 2 2 2 @ = × = = - × = = ú û ù ê ë é - × = ú ú û ù ê ê ë é - - = å å s n x x n s 83,268285714286,266,375 14 1 4,128066128442 14 1 15 1386 128442 14 1 1 1 2 2 2 22 s n x x n s 99879 17 35300 70566 54528 41787 18 99013 14385 96209 88567 19 28832 80419 18474 57848 20 77111 61381 44258 79367 21 69763 60054 13373 60715 22 19353 87117 93237 03310 23 94208 35632 60830 32594 24 40720 35067 14705 36686 25 34357 38587 84847 03914 ( ) 83 , 26 8285714286 , 26 14 6 , 375 1 15 6 , 375 1 2 2 2 @ = = - = - - = å s n x x s 83,26 8285714286,26 14 6,375 115 6,375 1 2 2 2 s n xx s x ( ) [ ] 1 2 2 - - × = å n x x f s 1 32426 18772 76910 52223 2 67794 12710 42460 24780 3 21256 08828 23715 26783 4 80360 59202 44605 90518 5 34071 34511 57120 93221 6 32881 71932 63989 58772 7 43091 69604 00583 50492 8 19070 54599 35352 13977 9 04717 73548 32490 08310 10 42311 73906 51389 08515 11 60279 98234 81917 24828 Fonte: Autora Leitura da tabela (sorteio): 96, 00, 52, 20, 47, 25, 37, 23, 83, 70, 84, 05, 02, 52, 09. Os elementos em azul são os válidos; então, teremos: 20, 25, 23, 05, 02 e 09. Para determinar a amostra, fazemos a correspondência do número sorteado e o elemento da população que ele representa. Amostra: 133, 131, 146, 136, 119 e 139. 1.4.4. Amostragem sistemática A amostragem sistemática pressupõe um intervalo regular para a tomada de elementos para compor a amostra: como entrevistar duas pessoas a cada hora, ou retirar 5 aparelhos para inspeção a cada 2 horas na linha de produção de uma fábrica. Esse intervalo regular pode ser estabelecido pelo pesquisador ou calculado a partir do tamanho da amostra que se deseja, através da razão n N , onde N é o tamanho da população e n é o tamanho da amostra. Vejamos um exemplo! A demanda pelo produto X, na primeira semana de dez/06, em 35 estabelecimentos comerciais, revelou os seguintes valores (em número de caixas).Extraia uma amostra sistemática de tamanho 7. 35 19 20 22 36 42 25 42 20 28 24 23 29 33 37 14 22 35 30 30 38 39 29 27 21 27 32 49 18 26 24 33 34 29 39 Primeiro, nós iremos codificar a população, atribuindo um número para identificar cada elemento. 1 35 2 19 3 20 4 22 5 36 6 42 7 25 8 42 9 20 10 28 11 24 12 23 13 29 14 33 15 37 16 14 17 22 18 35 19 30 20 30 21 38 22 39 23 29 24 27 25 21 26 27 27 32 28 49 29 18 30 26 31 24 32 33 33 34 34 29 35 39 Aqui o intervalo será definido de acordo com o tamanho da amostra; logo, para uma população de 35 elementos com uma amostra de 7, o intervalo será de 5 7 35 = , ou seja, a seleção será de 5 em 5. Mas qual será o primeiro elemento? Ele pode ser sorteado pela TNA, seguindo orientações do pesquisador. Atenção, nesse caso, apesar da população conter 35 elementos, o sorteio será apenas do 1º elemento, que poderá ser 1, 2, 3, 4 ou 5, por causa do intervalo (de 5 em 5), logo o sorteio será de um número com um algarismo, de 1 a 5. Vamos utilizar a TNA 23ª linha e 26ª coluna. Veja! 23 94208 35632 60830 32594 29330 75521 24 40720 35067 14705 36686 10027 00682 25 34357 38587 84847 03914 64454 24832 O número que aparece na indicação de linha e coluna é o 7, mas não pode ser utilizado (tem que ser de 1 a 5); o próximo (abaixo do 7) é o zero que representa 10, também não serve; logo abaixo vem o 2. Esse será o nosso primeiro elemento. Com isso, nossa amostra será composta pelos elementos de número: 2, 7, 12, 17, 22, 27 e 32 (começando pelo 2 e seguindo intervalo de 5 em 5). Agora é só fazer a correspondência dos números selecionados com os elementos da população. Amostra: 19, 25, 23, 22, 32, 33. 1.4.5. Amostragem estratificada A amostragem estratificada baseia-se na subdivisão da população em estratos (subgrupos). Esses subgrupos da população possuem uma característica comum que os identifica a um único estrato. São exemplos de estratos: masculino e feminino; classe socioeconômica, religião, etnia, etc. É necessário, para a aplicação dessa técnica, o conhecimento da população em relação aos estratos e à participação de cada um na população. Nesse tipo de amostragem, a proporção de cada estrato apresentada na população é respeitada dentro da amostra. Por exemplo, numa universidade, onde 60% dos alunos são do sexo feminino e 40% do sexo masculino, haverá uma amostra selecionada, onde as proporções de 60% feminino e 40% masculino serão mantidas. Para isso, os elementos da população são separados previamente. O cálculo do número de elementos a serem selecionados dentro de cada estrato é feito com base no tamanho da amostra e na composição da população. Então, segue uma amostragem aleatória simples dentro de cada estrato. Observe o exemplo! Os dados abaixo referem-se ao tempo de execução (minutos) de uma dada etapa em um processo produtivo, quando foi observado o desempenho de 53 operários em três diferentes turnos. Turno I: 81 50 86 92 91 91 88 87 86 86 91 87 88 Turno II: 94 94 97 96 96 96 90 94 93 95 97 95 96 97 93 Turno III: 100 98 100 98 108 110 103 105 114 107 98 109 107 109 104 107 106 102 104 99 100 99 191 99 100 Considere cada turno como um estrato e extraia uma amostra estratificada proporcional de tamanho 9. Devemos, em primeiro lugar, identificar os elementos da população, em cada um dos estratos. Turno I : 1 81 2 50 3 86 4 92 5 91 6 91 7 88 8 87 9 86 10 86 11 91 12 87 13 88 Turno II: 1 94 2 94 3 97 4 96 5 96 6 96 7 90 8 94 9 93 10 95 11 97 12 95 13 96 14 97 15 93 Turno III: 1 100 2 98 3 100 4 98 5 108 6 110 7 103 8 105 9 114 10 107 11 98 12 109 13 107 14 109 15 104 16 107 17 106 18 102 19 104 20 99 21 100 22 99 23 191 24 99 25 100 O segundo passo é determinar o número de elementos a ser selecionado dentro de cada estrato.Para isso, calculamos por regra de três simples: 52 , 1 3 5236842105 , 1 19 95 , 28 1 20 95 , 28 2 » = = - = s ( ) ( ) [ ] [ ] 52 , 1 3 5236842105 , 1 05 , 252 281 19 1 20 71 281 19 1 1 1 2 2 2 2 2 » = = - × = ú ú û ù ê ê ë é - × = ú ú û ù ê ê ë é × - × × - = å å s n x f x f n s ( ) ( ) [ ] ( ) [ ] 146 , 0 556 , 485 49 , 489 27 1 28 6 , 116 49 , 489 27 1 1 1 2 2 2 2 2 » - × = = ú ú û ù ê ê ë é - × = ú ú û ù ê ê ë é × - × × - = å å s n pm f pm f n s 382 , 0 146 , 0 2 @ = = s s s 382,0146,0 2 s ss Md Mo x = = x x n x f x å = . å x 55 , 3 20 71 . = = ® = å x n x f x n pm f x å = . å pm f . 16 , 4 28 6 , 116 . = = ® = å x n pm f x ( ) % 25 2 = = X p ( ) 6 9 5 , 0 5 , 0 9 15 9 × × ÷ ÷ ø ö ç ç è æ = = X P 5005 720 3603600 1 2 3 4 5 6 ! 9 ! 9 10 11 12 13 14 15 ! 6 ! 9 ! 15 9 15 = = × × × × × × / / × × × × × × = × = ÷ ÷ ø ö ç ç è æ Fonte: Autora Agora, faremos o sorteio dos elementos de cada estrato, respeitando a quantidade calculada anteriormente. Para o sorteio de cada estrato, utilizaremos uma indicação de linha e coluna diferente, pré-estabelecida pelo pesquisador, seguindo a leitura no sentido da coluna para baixo. Turno I: 2 elementos (1 a 13) TNA 4ª linha 8ª coluna. Fazendo a leitura da tabela na linha indicada e utilizando a 8ª e 9ª colunas, pois a população está numerada de 1 a 13, os números válidos são: 08 e 05. Turno II: 3 elementos (1 a 15) TNA 8ª linha 12ª coluna. Seguindo o mesmo processo para o turno I, os elementos válidos no sorteio são: 13, 08 e 05. Turno III: 4 elementos (1 a 25) TNA 1ª linha 7ª coluna. Da mesma maneira, os elementos válidos para esse turno são: 19, 13, 05 e 04. Com isso, a amostra será formada pelos elementos: Turno I: 87 e 91 Turno II: 96, 94 e 96 Turno III: 104, 107, 105 e 98 Apesar de conter duas vezes o 96, não há repetição de elementos, já que eles são referentes a elementos distintos da população. É o mesmo que acontece quando duas pessoas numa turma têm a mesma idade, o valor é o mesmo, mas os elementos da população são distintos. Isso vale para todas as técnicas estudadas aqui. Vejamos, agora, o que é o método estatístico e suas fases. 1.5. O método estatístico Engana-se aquele que pensa que a estatística começa com as informações em mãos. O método estatístico tem fases que vão desde a preparação até a conclusão final da pesquisa. Então, vamos ao conhecimento de cada uma delas. 1.5.1. Fases do método estatístico Para Crespo (1995, p. 14 e 15), as fases do método estatístico são: ( ) % 27 , 15 1527 , 0 5 , 0 5 , 0 5005 9 6 9 = = × × = = X P Toda pesquisa começa com uma pergunta. A resposta a essa pergunta consiste do objetivo da pesquisa. No planejamento, é feita a delimitação do problema, a construção do objetivo, a elaboração do cronograma de atividades, a planilha de custos, a determinação da população e da amostra (se for o caso), como os dados serão analisados (manualmente ou por computador), tipo de informação (questionário ou observação), modelo para registro das informações coletadas; em suma, todos os passos a serem dados desde a pergunta inicial até sua resposta. 55 , 0 55 870 900 = - = - = s x x z ( ) ( ) ] [ ] [ 2 2 2 2 å å å å å å å - × × - × × - × × = y y n x x n y x y x n r ][][ 2 2 2 2 yynxxn yxyxn r A coleta de dados é o segundo momento do método. Após a conclusão do planejamento, fazemos a coleta de dados. Existem diversos meios de se coletar dados. Um dos mais utilizados é o questionário, que pode ser aplicadopor um entrevistador pessoalmente ou por telefone, ou pode ser enviado por correio ou e-mail. Esses últimos possuem o inconveniente de muitos questionários não serem devolvidos. Ao elaborar um questionário, devemos levar em consideração alguns aspectos importantes como a forma e o tipo de pergunta que será feita ao respondente. De maneira geral, a informação do questionário relata aquilo que o entrevistado acha conveniente responder; então, evite perguntas constrangedoras; garanta ao entrevistado o anonimato das respostas. Assim, ele vai se sentir mais confortável para responder com honestidade às questões. ( ) ( ) 9864 , 0 14131824 3708 ] 442 20396 10 [ ] 76 742 10 [ 442 76 3730 10 ] [ ] [ 2 2 2 2 2 2 = = - ´ × - ´ ´ - ´ = = - × × - × × - × × = å å å å å å å y y n x x n y x y x n r 9864,0 14131824 3708 ]4422039610[]7674210[ 44276373010 ][][ 22 2 2 2 2 yynxxn yxyxn r Após a coleta dos dados, passamos à crítica. Essa etapa visa eliminar, do conjunto de questionários respondidos ou do conjunto de observações, possíveis falhas, sejam questionários incompletos ou dados ilegíveis. ( ) 2 2 å å å å å - - × = x x n y x y x n m 2 2 xxn yxyxn m Na etapa de apuração de dados, processamos as informações manual ou eletronicamente. Hoje, são raras as apurações manuais, dada a grande variedade de recursos tecnológicos para apuração de dados. ( ) 2555 , 2 1644 3708 5776 7420 33592 37300 76 742 10 442 76 3730 10 2 2 2 = = - - = - ´ ´ - ´ = - - × = å å å å å x x n y x y x n m 2555,2 1644 3708 57767420 3359237300 7674210 44276373010 2 2 2 xxn yxyxn m Após a apuração dos dados, passamos aos cálculos pertinentes e elaboramos tabelas e gráficos para apresentar os resultados. Existem normas para apresentação de tabelas e gráficos em textos científicos, estabelecidas pela ABNT (Associação Brasileira de Normas Técnicas) e pelo IBGE que devem ser observadas na elaboração de textos científicos e acadêmicos. ( ) 0584 , 27 1644 44484 5776 7420 283480 327964 76 742 10 3730 76 442 742 2 2 2 2 = = - - = - ´ ´ - ´ = - × - = å å å å å å x x n y x x y x b 0584,27 1644 44484 57767420 283480327964 7674210 373076442742 2 2 2 2 xxn yxxyx b Como última etapa, temos a análise dos resultados. É nessa fase que será feita a conclusão da pesquisa levando em conta o seu objetivo e os resultados obtidos. Podemos ainda ir mais fundo na análise de dados, utilizando inferência estatística. Mas, como a estatística será utilizada em administração de empresas? Umas das principais atividades, senão a principal, de um gestor é a tomada de decisão. A estatística aparece, nesse cenário, como uma ferramenta que irá fornecer subsídios para decidir. Ela pode ser utilizada como sondagem, obtendo e analisando dados que possibilitem avaliação da situação atual, que visem ao estabelecimento de metas para criar melhorias. Pode ser usada também como método para verificação ou avaliação de planos de ações já implementados, possibilitando a adequação de recursos humanos, financeiros ou de materiais. 1.6. 2 2 - × - - = å å å n y x m y b y S e 2 2 n yxmyby S e Evolução histórica Vimos alguns conceitos importantes para o estudo de Estatística, agora um pouco da história desse conteúdo tão vasto e interessante. A estatística remonta aos primórdios da história humana. Os egípcios e os persas já registravam informações relativas a grupos sociais em 3000 a.C. A princípio, sua utilização estava ligada à cobrança de impostos e às práticas militares e governamentais. A partir do século XVI, aparecem as primeiras análise sistemáticas, com o surgimento de tábuas, tabelas e números relativos. Consideramos que, por volta do século XVII, iniciaram-se os estudos formais sobre probabilidade. Segundo Milone (2004), o surgimento dos estudos preliminares sobre o assunto aconteceu por causa da populariadade dos jogos de azar que utilizavam dados e cartas de baralho, gerando, na comunidade da época, certa curiosidade. De fato, é nessa época que surgem as indagações de Méré (1607-1684) – jogador, filósofo e homem das letras – e Pascal (1623–1662) – filósofo, físico e matemático – sobre jogos de azar; mas é na correspondência trocada entre Pascal e Fermat (1601-1665) que ambos chegam a um mesmo resultado para o problema da divisão das apostas, questão teórica proposta por Méré (Milone, 2004, p. 345). Com a evolução dos estudos sobre probabilidade, surgem as distribuições de probabilidade e modelagem matemática, base da inferência estatística que permite a extrapolação de conclusões sobre uma parte do conjunto para o todo. Atualmente, são muitos os recursos tecnológicos apropriados pela estatística. Os mais acessíveis e simples são as calculadoras científicas, que permitem cálculos diretos com a utilização de banco de dados armazenados na memória interna. Para saber como operar as funções estatísticas da sua calculadora, leia o manual! Cada calculadora funciona de maneira diferente. Temos ainda programas de análise de dados, elaboração de tabelas e gráficos, como o Excel. Nele é possível executar todos os cálculos da estatística descritiva, como média e desvio padrão; e ainda programas específicos de tratamento estatístico de informações como o Minitab que consiste em uma poderosa ferramenta de análise e apresentação de dados. Bom pessoal, encerramos a parte introdutória do conteúdo, na próxima unidade iremos trabalhar as formas de apresentação de dados estatísticos que são muito utilizadas mas, às vezes, sem atenção devida às normas. Até lá! 2. 10 3730 2555 , 2 0584 , 27 20396 2 = = × = = = å å n y x m b y 1037302555,20584,2720396 2 nyxmby Teoria na Prática Agora é hora de praticar! Utilize os conceitos trabalhados para solucionar as questões! Sempre que necessário, consulte o texto didático e bom trabalho! Observe a reportagem abaixo: Pesquisa traça o perfil do usuário da internet IBGE contou 32,1 milhões de usuários da internet no país, que é dominada pelos jovens V inte e um por cento (32,1 milhões) da população de 10 anos ou mais de idade acessaram pelo menos uma vez a Internet em algum local - domicílio, local de trabalho, estabelecimento de ensino, centro público de acesso gratuito ou pago, domicílio de outras pessoas ou qualquer outro local - por meio de microcomputador. As informações fazem parte do suplemento da Pesquisa Nacional por Amostra de Domicílios - PNAD de 2005 sobre acesso à Internet e posse de telefone móvel celular para uso pessoal, divulgada nessa sexta-feira, 23. O levantamento, realizado pelo IBGE, em parceria com o Comitê Gestor da Internet no Brasil - CGI.br, mostrou também que o rendimento, o nível de instrução e a idade apresentam reflexos evidentes no acesso à Internet. Dentre os 32,1 milhões de pessoas que acessaram a Internet, em 2005, a maior parte era de homens(16,2 milhões), tinha entre 30 a 39 anos (5,8 milhões), 13,9 milhões eram estudantes, 20 milhões integravam a população ocupada e 4,2 milhões era de trabalhadores de serviços administrativos. Segundo a pesquisa, os internautas tinham em média 28 anos de idade, 10,7 anos de estudo e um rendimento médio mensal domiciliar per capita de R$1.000,00. Além disso, metade dos internautas utilizou a rede no domicílio em que morava e 39,7% em seu local de trabalho. A conexão discada à Internet mostrou-se mais difundida que a banda larga. 1/3 dos jovensde 15 a 17 anos são internautas Os usuários da Internet apresentaram perfil bastante distinto daquele das pessoas que não utilizaram a rede. As diferenças entre esses dois grupos se tornam evidentes no confronto de suas características de idade, nível de instrução e rendimento. A idade média da população de 10 anos ou mais de idade, usuária da Internet, situou-se em 28,1 anos, sendo expressivamente menor que a das pessoas que não usaram esta rede (37,5 anos). A pesquisa verificou que a utilização da Internet estava mais concentrada nos grupos etários mais jovens. No grupo de 15 a 17 anos de idade, 33,9% das pessoas acessaram essa rede, sendo este resultado maior que os das demais faixas etárias. Esse percentual foi declinando com o aumento da faixa de idade, atingindo 7,3% no contingente de 50 anos ou mais de idade. A proporção de pessoas que acessaram a Internet no grupo etário de 10 a 14 anos (24,4%) ficou acima daqueles das idades a partir de 30 anos, tanto na parcela feminina como na masculina. Fonte: Disponível em: http://www.jornaldoestado.com.br/index.php?VjFSQ1VtUXlWa1pqU0ZKUFVrZDRUMWxYYzNoTk1WRjNWV3RLYVZadVFsWlVWVkpUVkRKU05rMUVhejA9 Acesso em 14/05/2007 Nessa reportagem, verificamos o resultado de uma pesquisa realizada pelo IBGE em parceria com CGI – Comitê Gestor da Internet no Brasil. A PNAD – Pesquisa Nacional por Amostra de Domicílio, como o próprio nome sugere, é baseada em amostra, e a população referência do estudo é a população brasileira, todos os habitantes do nosso país. Com as informações apresentadas, podemos identificar algumas variáveis de interesse do estudo. Quais são elas? Idade, local onde o acesso foi realizado (domicílio, local de trabalho, estabelecimento de ensino, centro público gratuito ou pago, domicílio de outra pessoa), rendimento, nível de instrução (apresentado em anos de estudo), sexo, tipo de conexão utilizada no acesso (discada ou banda larga). Qual a classificação de cada uma dessas variáveis? Idade: quantitativa discreta; local de acesso: qualitativa nominal; rendimento: quantitativa contínua; nível de instrução: quantitativa contínua; sexo: qualitativa nominal; tipo de conexão: qualitativa nominal. O jornal Correio de Uberlândia apresentou uma reportagem sobre o mesmo assunto no caderno Cidade, no dia 24/03/2007, divulgando dados da mesma pesquisa, com o seguinte título e chamada: “ Pesquisa mapeia uso da internet: Segundo o IBGE, cerca de 79% dos brasileiros nunca acessaram a net.” Que diferenças você percebe ao comparar os títulos e as chamadas das duas reportagens? Não existe certo e errado na divulgação de resultados de pesquisas. Há diferenças na interpretação e enfoque dado aos dados. Podemos perceber que a chamada da segunda reportagem tem um cunho mais negativo, destacando o percentual de brasileiros que nunca acessaram a internet. Observe que a mesma informação está na primeira linha da primeira reportagem, mas sem alarde. Esse exemplo ilustra como devemos ser cautelosos ao apresentar dados. Uma simples alteração de escala na construção de um gráfico pode destacar equivocadamente um comportamento de queda ou ascensão acentuado. O mesmo aconteceu no caso tratado. A informação é a mesma, com a mesma fonte; porém o destaque da informação é diferente em cada uma das reportagens. 3. 7019 , 1 2 10 3730 2555 , 2 442 0584 , 27 20396 2 2 = - ´ - ´ - = - × - - = å å å n y x m y b y S e 7019,1 210 37302555,24420584,2720396 2 2 n yxmyby S e Síntese O que vimos nesta unidade? Estatística é um conjunto de métodos para coletar, organizar, resumir, apresentar e analisar um ou mais conjunto de dados e deles extrair conclusões. População é o nome dado ao conjunto de todos os elementos que possuem uma ou mais características de interesse do estudo. Amostra é um subconjunto, ou seja, uma parte da população. Variável é o fenômeno ou característica de interesse do estudo. São classificadas da seguinte forma: ( ) å å å å å å å - × - - × = ] ) ( [ ] ) ( [ 2 2 2 2 2 2 y y n x x n y x y x n r ])([])([ 2222 2 2 yynxxn yxyxn r ( ) ( ) [ ] [ ] 9729 , 0 442 20396 10 76 742 10 442 76 3730 10 ] ) ( [ ] ) ( [ 2 2 2 2 2 2 2 2 2 = - ´ × - ´ ´ - ´ = - × - - × = å å å å å å å y y n x x n y x y x n r 9729,0 44220396107674210 44276373010 ])([])([ 22 2 2222 2 2 yynxxn yxyxn r Sobre amostras e técnicas de amostragem: Toda amostra deve ser representativa para que possamos, com base nos dados observados na amostra, predizer ou concluir sobre a população. A amostragem é probabilística quando todos os elementos da população têm chance conhecida e diferente de zero de serem selecionados; e é não probabilística, quando os elementos da população são escolhidos ou selecionados pelo pesquisador. A amostragem probabilística pode ser selecionada com reposição, quando os elementos sorteados voltam para a urna ou podem ser considerados mais de uma vez na leitura da TNA (tabela de números aleatórios); ou sem reposição em que cada elemento só pode ser sorteado uma única vez, não retornando à população quando é sorteado, ou é desconsiderado quando seu número aparece novamente na leitura da TNA. As três principais técnicas de amostragem probabilística são: · Amostragem Aleatória Simples: elementos sorteados ao acaso, com utilização de tabela de números aleatórios, recursos computacionais ou outro sistema. · Amostragem Sistemática: os elementos da amostra são selecionados, respeitando um intervalo regular entre eles. · Amostragem Estratificada: a população é separada em subgrupos, o número de elementos sorteados de cada estrato obedece à composição proporcional da população em relação ao tamanho da amostra desejada. Para a seleção dos elementos, é feito sorteio entre os elementos de cada estrato. A amostragem não probabilística é subjetiva e depende do bom senso do pesquisador quanto à seleção dos elementos da amostra. Sua utilização não significa, necessariamente, que o estudo é tendencioso. Ela pode ser intencional, quando o elemento é selecionado pelo pesquisador; ou voluntária, quando os elementos populacionais apresentam-se espontaneamente para o estudo (MILONE, 2004, pág. 15). Esse tipo de amostragem pode ainda ser chamada de amostragem por conveniência (DOWNING & CLARK, 2003, pág. 178). Unidade 2: Sumarização e Apresentação de Dados 1 Conteúdo Didático 1.1 Introdução Quando realizamos um estudo, ou pesquisa, fazemos a coleta de dados. Após a coleta, é feita a apuração dos dados, ou seja, organizamos as informações. Mas como apresentar o resultado do estudo? Para isso utilizamos as tabelas e gráficos! Sumarizar significa resumir, condensar as tabelas e gráficos que, assim, servem para apresentar os dados das pesquisas coletados. Para tirar conclusões sobre um conjunto de dados coletados, devemos organizá-los, mas, mesmo após a organização, o volume de dados pode ser muito grande dificultando sua interpretação. Então, para facilitar, construímos tabelas. As tabelas podem ser as séries estatísticas ou distribuição de frequência que estudaremos nesta unidade. 2555 , 2 0584 , 27 3730 20396 742 442 76 10 2 2 = = = × = = = = = å å å å å m b y x y x y x n 2555,20584,27 3730203967424427610 22 mb yxyxyxn Além das tabelas, as informações obtidas numa pesquisa podem ser apresentadas através de gráficos que foram retirados do site: http://www.sei.ba.gov.br/images/releases_mensais/pdf/norma_tabular/normas_apresentacao_tabular.pdf A elaboração de tabelas e gráficos deve seguir algumas regras que iremos estudara seguir. Vamos lá! 1.2 Séries estatísticas Séries Estatísticas são tabelas que trazem dados resumidos de um estudo ou pesquisa em função da época, do local ou de uma categoria (CRESPO, 1995). ( ) ( ) 9912 , 0 ] 2430 625802 10 [ ] 599 37611 10 [ 2430 599 137808 10 ] [ ] [ 2 2 2 2 2 2 - = - ´ ´ - ´ ´ - ´ = - × × - × × - × × = å å å å å å å r r y y n x x n y x y x n r Mas qual é a diferença entre quadro e tabela? Tanto os quadros como as tabelas dispõem as informações em linhas e colunas, porém, as tabelas permitem cálculos e leituras em diversas direções, enquanto os quadros apenas apresentam dados. Além disso, as tabelas exigem um rigor técnico de apresentação. Para trabalhos e publicações científicas, as tabelas devem seguir as Normas de Apresentação Tabular do IBGE. 1.2.1 Classificação Podemos classificar as séries estatísticas de acordo com a variação dos dados apresentados, essa variação ocorre em função do período, do local ou de espécie. Quando uma série estatística apresenta dados com variação do período, ou tempo, recebe o nome de histórica (ou cronológica ou temporal). Essa variação pode ser expressa em anos, meses, dias ou qualquer outra unidade temporal necessária. Exemplo: População brasileira – 1920/2000 Ano População (em milhões) 1920 30,6 1940 41,2 1950 51,9 1960 70,2 1970 93,1 1980 121,1 1991 146,8 2000 166,1 1640 , 511 ˆ 4769 , 4 ˆ + - = x y Fonte: Censo Demográfico do IBGE. Série geográfica (ou territorial ou espacial) apresenta informações em função do local: cidades, estados, países, etc. A época e o fenômeno estudados mantêm-se constantes. Exemplo: Áreas continentais - 2008 ( ) ( ) ] [ ] [ 2 2 2 2 å å å å å å å - × × - × × - × × = y y n x x n y x y x n r ][][ 2 2 2 2 yynxxn yxyxn r Continente Área (106 km2) Ásia 43,608 África 30,335 América do Norte 23,434 América do Sul 17,611 Antártida 13,340 Europa 10,498 América Central 1,915 Oceania 8,923 Fonte: Atlas Mundial Folha de S. Paulo. Já a série específica (ou categórica) mantém fixos o local e o período do estudo, variando a categoria dos dados. Observe o exemplo abaixo: Número de correspondências da semana Tipo Quantidade E-mails 1932 Cartas 94 Fax 44 Total 2070 Fonte: Revista Veja 20/04/2004 Todos os exemplos anteriores apresentam séries simples, ou seja, tabelas que contêm apenas duas colunas. Existem séries que necessitam de tabelas com maior número de colunas, são as chamadas séries conjugadas ou séries mistas. A classificação das séries conjugadas segue o mesmo critério das séries simples (histórica, geográfica ou específica), mas a sua classificação será composta por dois nomes, por exemplo, histórico-geográfica ou específico-geográfica. Acompanhe os exemplos a seguir e veja como é feita a classificação de séries conjugadas. Exemplos: 7 5481 , 6 48 log 3 , 3 1 log 3 , 3 1 @ = + = + = i i i N i Número de municípios das regiões brasileiras – 1940/2001 Região 1940 1950 1960 1970 1980 1990 1997 2001 Norte 88 99 120 143 153 298 449 449 Nordeste 584 609 903 1.376 1.375 1.509 1.787 1.792 Sudeste 641 845 1.085 1.410 1.410 1.432 1.666 1.668 Sul 181 224 414 717 719 873 1.159 1.188 Centro-Oeste 80 112 244 306 317 379 446 463 Fonte: IBGE A série acima apresenta número de municípios em função da região e do ano. Por isso, será classificada como série histórico-geográfica. Terras Indígenas – Brasil – 2000 Região Demarcadas Não demarcadas Norte 175 131 Nordeste 42 25 Sudeste 23 5 Sul 28 33 Centro-Oeste 31 13 Total 299 207 Fonte: IBGE, Diretoria de Geociências Por apresentar dados sobre terras indígenas em função da região e de categoria (demarcadas e não demarcadas), essa série é classificada como específico-geográfica. Para classificar séries estatísticas, devemos observar, em função do que os dados estão sendo apresentados, tempo, local ou categoria. Nas tabelas de apenas duas colunas, observamos os dizeres da primeira coluna. Se for indicado tempo, seja em anos ou meses ou outra medida de tempo, sua classificação será histórica; se for indicado lugar, como cidades, estados, etc., será geográfica; caso indique espécie ou categoria, será específica. Você sabia que, para classificação de séries apresentadas por tabelas de três ou mais colunas, devemos observar as informações da primeira linha e da primeira coluna, analisando os dizeres – a que se referem? Tempo, lugar ou categoria? Após a identificação, associamos os nomes separando-os com hífen como: específico-geográfico. Em muitos casos as informações são apresentadas na forma de gráficos. Vejamos, a seguir, como apresentar os dados em gráficos. 1.2.2 Apresentação Gráfica O que você já sabe sobre a apresentação gráfica? Já pensou que importância tem esse tipo de representação na estatística? Reflita um pouco sobre isso e, depois, veja a definição que apresentaremos a seguir. Gráfico é a representação visual do fenômeno em termos de sua evolução ou das relações entre as variáveis nele envolvidas. Também se diz que é a forma mais adequada de transmissão de informação quando se quer acentuar aspectos visuais, instantâneos, globais, dinâmicos e expressivos e quando se deseja facilitar a comparação dos dados computados por meio das proporções entre as grandezas envolvidas.(...) O gráfico ideal é simples, claro e esteticamente agradável (...) (MILONE, 2004, p. 26 e 27) Gráfico é a representação visual de um fenômeno que utiliza eixos coordenados. Na construção de um gráfico, devemos evitar exageros nas cores, linhas e informações adicionais. Em trabalhos científicos ou publicações científicas, o objetivo principal é a informação e não o apelo visual. Assim como para tabelas, existem normas para apresentação de gráficos determinadas pela ABNT e pelo IBGE. Os gráficos podem ser de linhas, colunas ou barras, setores (pizza), pictogramas ou cartogramas. Não existe regra para definição do tipo de gráfico a ser utilizado, porém os gráficos de linhas ficam restritos para representar séries temporais ou evoluções históricas. Veja o exemplo a seguir: Os gráficos de barras e colunas possuem a mesma finalidade diferindo somente na posição dos retângulos. Damos preferência para barras quando os dizeres ou nomes a serem representados são extensos. Nada impede, no entanto, que você prefira o gráfico de colunas, nesse caso, os nomes devem ser escritos de baixo para cima. 01020304050 Ásia África América do Norte América do Sul Antártida Europa Oceania América Central Áreas continentais (em milhões de quilômetros quadrados) Fonte: Atlas Mundial da Folha de São Paulo Os gráficos de setores, também chamados de pizza, devem ser utilizados quando se deseja ressaltar a participação de segmentos em relação ao todo. É adequado quando representamos no máximo sete dados, um número maior polui o gráfico e dificulta sua leitura. 2 2 , 2 53 117 117 53 13 . 9 . 53 = = = = = x x x x x Os cartogramas são gráficos que utilizam mapas cartográficos como base para a apresentação de dados. Servem somente a séries geográficas, uma vez que os dados apresentados são referentes a lugares (países, estados, cidades, etc.). Os pictogramas são gráficos que utilizam desenhos no lugar das formas básicas para representar dados. Geralmente esses desenhos ilustram a natureza dos dados apresentados. 3 5 , 2 53 135 135 53 15 . 9 . 53 = = = = = y y y y y Fonte: Disponível em http://confins.revues.org/docannexe/image/3483/img-5.png Acesso em 25/11/2010 Vimos duas formas de apresentar dados estatísticos : tabelas e gráficos. Veremos a seguir outra forma de apresentação e resumo de dados: as distribuições defrequência. 1.3 Distribuição de frequência 1.3.1 Conceito Tabelas de distribuição de frequência são aquelas que relacionam o valor da variável (ou um intervalo de valores) com sua frequência no conjunto de dados observados, ou seja, quantas vezes ela aparece no conjunto. As tabelas de distribuição de frequência podem ser construídas a partir do valor da variável ou de intervalos. Dessa forma, temos dois tipos de tabelas: COM INTERVALO ou SEM INTERVALO. Vejamos: SEM INTERVALO DE CLASSE COM INTERVALO DE CLASSE4 2 , 4 53 225 225 53 25 . 9 . 53 = = = = = z z z z z Número de cômodos ocupados por vinte famílias entrevistadas -Belo Horizonte 2005 x f 2 4 3 7 4 5 5 2 6 2 Total 20 Fonte: Dados fictícios O símbolo |– indica que o intervalo é fechado à esquerda e aberto à direita, por exemplo 2,9 |– 3,2, é de 2,9 inclusive até 3,2 exclusive, ou seja, os valores desse intervalo são de 2,9 até 3,1. A formatação das tabelas de distribuição de frequência é a mesma das séries estatísticas. 1.3.2 Dados brutos e rol Dados brutos ou tabela primitiva são os dados na forma como foram coletados. Rol conjunto obtido após a ordenação dos dados. Exemplo: Dados brutos: 13 25 35 25 25 15 Rol: 13 15 25 25 25 35 1.3.3 Elementos da distribuição As distribuições de frequência são formadas por elementos básicos, o nome de cada elemento e sua denominação ou símbolo devem ser bem observados, pois serão utilizados posteriormente na aplicação de fórmulas de cálculos estatísticos. Fique atento! · Classes (i): intervalo de variação da variável ou, simplesmente, os valores da variável. · Limite de classe (Ls e Li): extremos de cada classe. Limite inferior (Li) - o menor valor e limite superior (Ls) - o maior. · Amplitude de um intervalo (h): diferença entre os limites superior e inferior de uma classe. · Amplitude total (AT): diferença entre o limite superior do último intervalo e o limite inferior de primeiro intervalo. Nas distribuições sem intervalos, é a diferença entre o maior e o menor valor que a variável assume. · Amplitude amostral (AA): diferença entre o valor máximo e o mínimo observado na amostra. Observe que, numa distribuição sem intervalo de classe, AA = AT. · Ponto médio de uma classe (pm): média aritmética entre os limites do intervalo. · Frequência simples (f): número de observações correspondente a uma classe ou um valor da variável. Algumas fórmulas estatísticas utilizam esses elementos e símbolos, por isso fique atento! 1.3.4 Elaboração da tabela A elaboração da tabela sem intervalo de classe é simples: na primeira coluna, escrevemos os valores que a variável assume e, na segunda coluna, a frequência, ou seja, quantas vezes ela aparece no conjunto de dados. Já a construção da tabela de distribuição de frequência com intervalo é mais elaborada. Devemos determinar o número de classes a serem utilizadas, os limites das classes, e, então, determinar a frequência de cada classe. O número de classes a serem consideradas e os limites das classes podem ser estipulados pelo pesquisador de forma conveniente de acordo com os dados a serem apresentados, mas existem algumas fórmulas que orientam a escolha do número de classe e seus limites. Veja a seguir: Sendo i o número de classes e N o número de dados do conjunto, temos: raiz Sturges Milone N i = N i log 3 , 3 1 + = N i ln 2 1 + - = Os limites dos intervalos podem ser calculados pela fórmula h= AT/i, lembrando que a amplitude da classe (h) deve ser arredondada sempre para mais (CRESPO, 1995, p. 62) e deve respeitar a precisão dos dados (número de casa decimais). Lembre-se de que o limite superior da classe é excluído pelo uso do símbolo |–, logo, para determinar AT, fazemos AA+1, ou seja, o maior valor do conjunto menos o menor mais um. Na maioria das vezes, devido a arredondamentos, o valor de i x h é diferente de AT. Para que a diferença não fique acumulada de um lado só da distribuição, fazemos um ajuste para centralizar e distribuir a diferença, repartindo igualmente entre o início e o fim da AT. Dessa forma, temos a AT a ser considerada na construção dos limites das classes (MILONE, 2004, p. 39). Após a definição do número de classes (i), da amplitude da classe (h) a ser considerada e da amplitude total ajustada (AT), determinamos os limites das classes somando h ao limite inferior da primeira classe para obter o limite superior, este será o inferior da segunda classe e, assim, sucessivamente até chegar ao limite superior estipulado pela AT ajustada. Note que o limite inferior da primeira e o limite superior da última classe são iguais aos estipulados pela AT ajustada. Agora é só determinar a frequência de cada classe. Acompanhe esse exemplo: Considere os resultados, abaixo, referentes à demanda semanal (número em milhares de caixas), de certo produto, observada em 48 semanas, em um estabelecimento comercial de médio porte. 248 249 250 250 251 252 253 255 256 257 258 258 259 260 260 260 262 262 263 263 264 264 264 264 265 265 265 265 265 266 266 266 266 266 266 266 266 267 267 268 268 268 268 268 268 269 270 270 Fonte: Dados fictícios Construa uma tabela de distribuição de frequência com intervalo de classe. 1º) Determinação do número de classes (Pela regra de Sturges, temos): 2º) Determinação da amplitude total (AT): AA = máx – mín ( AA = 270 – 248 = 22 A amplitude total (AT) a ser considerada será 23 (AA + 1, logo devemos ter limites que vão de 248 até 271, já que o limite superior é excluído da classe pela utilização do símbolo |–. 3º) Determinação da amplitude da classe (h): 4 2857 , 3 7 23 @ = = = h h i AT h 4º) Ajuste AT = 23 ( h x i = 7 x 4 = 28 ( 28 – 23 = 5 A diferença entre AT calculada e o valor de h x i deve ser repartida entre o início e o fim da distribuição. Como a diferença é um valor ímpar (5), não pode ser repartida igualmente; faremos duas partes desiguais (2 e 3), ficando a maior no final da amplitude total. A princípio, consideramos de 248 até 271, ajustando a diferença, subtraímos 2 no início e acrescentamos 3 ao final; dessa maneira, a amplitude total ajustada será: 248 – 2 = 246 271 + 3 = 274 A amplitude total (AT) ajustada, a ser considerada na distribuição, é de 246 até 274. 5º) Determinação dos limites dos intervalos Começamos pelo limite inferior determinado pela AT ajustada (246) e acrescentamos h para determinar o limite superior da primeira classe, esse será o limite inferior da segunda; acrescentamos h e teremos o limite superior da segunda classe que será, também, o limite inferior da terceira e, assim, sucessivamente até atingir o limite superior estipulado pela AT ajustada (274). Observe: 246 250 254 258 262 266 270 274 Os intervalos a serem considerados são: Demanda f 246 |– 250 250 |– 254 254 |– 258 258 |– 262 262 |– 266 266 |– 270 270 |– 274 Total Fonte: Dados fictícios 6º) Determinação da frequência de cada intervalo.População brasileira 1920/2000 0 20 40 60 80 100 120 140 160 180 19201940195019601970198019912000 Ano milhões de habitantes Com os limites das classes prontos, devemos determinar a frequência pela contagem de elementos que pertencem a cada uma das classes. Como os dados já estão organizados, essa tarefa fica fácil. Observe o conjunto: 248 249 250 250 251 252 253 255 256 257 258 258 259 260 260 260 262 262 263 263 264 264 264 264 265 265 265 265 265 266 266 266 266 266 266 266 266 267 267 268 268 268 268 268 268 269 270 270 Fonte: Dados fictícios A primeira classe contempla valores de 246 até 250, excluindo esse último; logo, os valores do conjunto que pertencem ao primeiro intervalo são 248 e 249. O 250 pertence ao segundo intervalo (250 |– 254). Dessa forma, a frequência da primeira classe será 2. A segunda classe englobaos números 250, 251, 252 e 253, sua frequência será 5 e assim sucessivamente. Demanda (em milhares de caixas) f 246 |– 250 2 250 |– 254 5 254 |– 258 3 258 |– 262 6 262 |– 266 13 266 |– 270 17 270 |– 274 2 Total 48 Fonte: Dados fictícios O somatóro das frequências das classe deve ser igual ao número de elementos no conjunto original. Dessa forma está pronta e pode ser analisada. 1.3.5 Tipos de frequência Todas as distribuições podem apresentar as seguintes colunas de frequência: Frequência simples (f) ( Resultante da contagem do número de elementos da amostra pertencente a cada classe. Frequência acumulada crescente (Fac) ( Frequência simples da classe somada a todas as frequências simples das classes anteriores a ela. Frequência acumulada decrescente (Fad) ( Frequência simples da classe somada com todas as frequências simples das classes posteriores a ela. Frequência simples relativa (fr) ( Razão entre a frequência simples da classe e a frequência total. Pode ser informada em porcentagem (%) ou em número decimal. Para o primeiro caso, o total deve ser 100 e para o segundo deve ser 1. Devido a sucessivos arredondamentos, pode acontecer do total não ser exatamente igual a 100 (ou igual a 1); nesses casos, devemos ajustar a frequência da seguinte forma: caso o somatório ultrapasse (100,1; por exemplo), devemos diminuir a diferença (0,1) na menor frequência, caso o somatório seja menor (99,9; por exemplo), devemos acrescentar a diferença na maior frequência. Se houver empate na maior ou menor frequência, devemos pegar a segunda maior ou a segunda menor. Esse princípio deve-se ao fato de que não iremos alterar a ordem de grandezas entre as frequências fazendo esse ajuste, já que o maior continua sendo o maior e o menor continua sendo o menor. Frequência acumulada relativa (Fr) ( frequência simples relativa da classe somada com todas as frequências simples relativas das classes anteriores a ela. Assim como a frequência simples relativa, ela pode ser informada em porcentagem ou número decimal. Como não existe significado para o somatório das colunas de frequências acumuladas, utilizamos dois pontos (∙∙) nas células relativas a esses totais na tabela. Acompanhe a determinação dessas frequências no exemplo: Demanda (em milhares de caixas) f Fac Fad fr (%) Fr 246 |– 250 2 2 48 4,2 250 |– 254 5 7 46 10,4 254 |– 258 3 10 41 6,3 258 |– 262 6 16 38 12,5 262 |– 266 13 29 32 27,1 266 |– 270 17 46 19 35,4 270 |– 274 2 48 2 4,2 Total 48 •• •• 100,1 Fonte: Dados fictícios Perceba que, ao fazer o somatório de fr, obtemos 100,1. Devemos ajustar a frequência para que o total seja 100. Como há excesso de 0,1, devemos diminuir essa diferença da menor frequência, que seria 4,2; porém, existem duas classes com essa frequência, então, devemos utilizar a segunda menor 6,3 referente à classe 254 |– 258, passa ser então 6,2. Demanda (em milhares de caixas) f Fac Fad fr (%) Fr 246 |– 250 2 2 48 4,2 4,2 250 |– 254 5 7 46 10,4 14,6 254 |– 258 3 10 41 6,2 20,8 258 |– 262 6 16 38 12,5 33,3 262 |– 266 13 29 32 27,1 60,4 266 |– 270 17 46 19 35,4 95,8 270 |– 274 2 48 2 4,2 100 Total 48 •• •• 100,0 •• Fonte: Dados fictícios Cada um dos números das colunas de frequência possui um significado. Observe os valores da 5ª classe: f: Em 13 das 48 semanas pesquisadas, a demanda foi entre 262 e 265 milhares de caixas. Fac: Em 29 semanas, a demanda foi de até 265 mil caixas. Fad: 39 semanas apresentaram demanda de pelo menos 262 mil caixas. fr: Em 27,1% das semanas, a demanda foi de 262 a 265 mil caixas. Fr: Em 60,4% das semanas, a demanda foi de até 265 mil caixas. 1.3.6 Histograma e polígono de frequência As representações gráficas das distribuições de frequência recebem o nome de histograma e polígono. Os histogramas são formados por colunas justapostas e podem ser elaborados utilizando qualquer uma das frequências estudadas e o polígono é um gráfico de linha e pode ser construído apenas a partir das frequências simples (absoluta ou relativa), ambo( ) [ ] 83 , 26 8285714286 , 26 6 , 375 14 1 4 , 128066 128442 14 1 15 1386 128442 14 1 1 1 2 2 2 2 2 @ = × = = - × = = ú û ù ê ë é - × = ú ú û ù ê ê ë é - - = å å s n x x n s s apres( ) 83 , 26 8285714286 , 26 14 6 , 375 1 15 6 , 375 1 2 2 2 @ = = - = - - = å s n x x s entam as frequências no eixo vertical y e os valores da variável. 382 , 0 146 , 0 2 @ = = s s s Para o nosso exemplo veja o histograma e o polígono, ambos construídos a partir da frequência absoluta simples. ( ) ( ) ] [ ] [ 2 2 2 2 å å å å å å å - × × - × × - × × = y y n x x n y x y x n r ( ) 2 2 å å å å å - - × = x x n y x y x n m ( ) 2555 , 2 1644 3708 5776 7420 33592 37300 76 742 10 442 76 3730 10 2 2 2 = = - - = - ´ ´ - ´ = - - × = å å å å å x x n y x y x n m ( ) 0584 , 27 1644 44484 5776 7420 283480 327964 76 742 10 3730 76 442 742 2 2 2 2 = = - - = - ´ ´ - ´ = - × - = å å å å å å x x n y x x y x b 2 2 - × - - = å å å n y x m y b y S e Fonte: Dados fictícios 7019 , 1 2 10 3730 2555 , 2 442 0584 , 27 20396 2 2 = - ´ - ´ - = - × - - = å å å n y x m y b y S e 10 3730 2555 , 2 0584 , 27 20396 2 = = × = = = å å n y x m b y Bons estudos e até a próxima unidade!( ) å å å å å å å - × - - × = ] ) ( [ ] ) ( [ 2 2 2 2 2 2 y y n x x n y x y x n r Mas, antes, não deixem de visitar as próximas seções. 2. 2555 , 2 0584 , 27 3730 20396 742 442 76 10 2 2 = = = × = = = = = å å å å å m b y x y x y x n Teoria na Prática ( ) ( ) [ ] [ ] 9729 , 0 442 20396 10 76 742 10 442 76 3730 10 ] ) ( [ ] ) ( [ 2 2 2 2 2 2 2 2 2 = - ´ × - ´ ´ - ´ = - × - - × = å å å å å å å y y n x x n y x y x n r Ao analisar um gráfico, devemos observar todas as informações apresentadas bem como o comportamento do fenômeno representado, identificar máximos, mínimos, padrões de comportamento e sempre levar em consideração o tipo de dado e sua unidade de medida. Os gráficos, que apresentam dois ou mais tipos (cores ou padrões) de linhas, colunas ou barras, representam séries conjugadas (ou mistas), nesses casos devemos analisar os dados em conjunto e separadamente. Podemos perceber que o gráfico apresenta os dados de uma série histórico-categórica pois apresenta informações em função do tempo (anos, eixo horizontal) e de categorias (faixa estário, legenda). Os dados estão na forma percentual. O percentual de crianças e jovens (representado pela linha escura) na população brasileira está diminuindo enquanto o percentual de idosos (representado pela linha clara) está aumentando. Vejamos, agora, alguns itens a serem analisados em relação às informações do gráfico. Considere as seguintes afirmativas e julgue-as em CERTO ou ERRADO. A. A partir de 1960, o percentual de crianças e jovens no Brasil tem diminuído. Crianças e jovens são representados no gráfico pela linha escura. Podemos perceber que o maior percentual registrado para essa parcela da população é registrado em 1960 e, a partir daí, esse número diminui ano a ano. Portanto, a afirmativa está CERTA. B. Em 1950, crianças, jovens e idosos representavam 46% da população brasileira. Crianças e jovens são representados no gráfico pela linha escura e idosos pela linha clara. Em 1950, temos, no gráfico, crianças e jovens 41,8% e idosos 4,2%, somando temos 46%, logo a afirmativa está CERTA. C. Se, em 2000, a população brasileira era de 170 milhões de habitantes,mais de 15 milhões de brasileiros eram idosos. Em 2000, o percentual de idosos na população brasileira era de 8,6%, se considerarmos uma população nesse ano de 170 milhões de habitantes, podemos calcular o número de habitantes idosos por regra de três simples, veja! milhões x x x x milhões 62 , 14 100 1462 1462 100 6 , 8 170 100 % 6 , 8 % 100 170 = = = ´ = ¾ ® ¾ ¾ ® ¾ Portanto, a afirmativa está ERRADA. D. Se, em 2005, a população brasileira era de 180 milhões de habitantes, mais de 115 milhões de brasileiros tinham de 15 a 59 anos. Nesse caso, devemos, primeiramente, determinar o percentual da população com idade de 15 a 59 anos. Essa população não é apresentada diretamente no gráfico, mas pode ser determinada calculando o percentual da população de 0 a 14 anos e com 60 ou mais, que são os dados fornecidos pelo gráfico. 6 , 64 4 , 35 100 % 4 , 35 % 4 , 8 60 % 27 14 0 = - þ ý ü = = mais ou a A população com idade de 15 a 59 anos representa 64,6% da população brasileira em 2005. Considerando 180 milhões de habitantes teremos: milhões x x x x milhões 28 , 116 100 11628 11628 100 6 , 64 180 100 % 6 , 64 % 100 180 = = = ´ = ¾ ® ¾ ¾ ® ¾ Portanto, a afirmativa está CERTA! ( ) ( ) ] [ ] [ 2 2 2 2 å å å å å å å - × × - × × - × × = y y n x x n y x y x n r 3. Síntese Vamos rever os principais conceitos estudados na unidade 2? Séries estatísticas são tabelas que apresentam dados que podem ser operados ou analisados em diversas direções. Podem ser classificadas em temporal, geográfica ou específica quando possuem apenas duas colunas (séries simples) ou através da combinação de dois desses nomes, quando possuem três ou mais colunas (séries conjugadas). Tabelas de distribuição de frequência são aquelas que relacionam o valor da variável (ou um intervalo de valores) com sua frequência no conjunto de dados observados, ou seja, quantas vezes ela aparece no conjunto. As tabelas de distribuição de frequência podem ser construídas a partir do valor da variável ou de intervalos; dessa forma, temos dois tipos de tabelas: COM INTERVALO ou SEM INTERVALO. Gráfico é a representação visual de um fenômeno que utiliza eixos coordenados. Na construção de um gráfico, devemos evitar exageros nas cores, linhas e informações adicionais. Para tabelas de distribuição de frequência, temos tipos específicos de gráficos que utilizam as figuras padrão como, colunas e linhas, porém com disposições e funções diferentes, são chamados de histogramas e polígonos. Para fazer a apresentação de dados de uma pesquisa devemos utilizar tabelas e gráficos construídos em conformidade com as normas da ABNT. Até a próxima! Unidade 3: Medidas de Posição e Medidas de Dispersão 1. Conteúdo Didático A Estatística Descritiva é a parte da Estatística responsável pela coleta, organização e descrição de dados (CRESPO, 1995). Para apresentar os resultados de uma pesquisa, utilizamos tabelas e gráficos. Para descrever o fenômeno estudado, lançamos mão de medidas de resumo, como média e desvio padrão. Nesta unidade, estudaremos as formas de resumo e caracterização de dados e dos resultados de um estudo. Vamos lá! 1.1 Medidas de Posição Medidas características, ou medidas de resumo, são valores que buscam representar, resumir e caracterizar um conjunto de dados, facilitando a interpretação e comparação de um ou vários conjuntos. As medidas características são separadas em: · Medidas de posição: de tendência central (média, moda e mediana) ou separatrizes (quartil). · Medidas de variabilidade: variância, desvio padrão e coeficiente de variação. · Medidas de assimetria: As medidas de assimetria expressam a forma que os dados estão distribuídos em relação a uma medida de referência que pode ser a média, por exemplo. As medidas de posição são assim chamadas pois se relacionam à posição de determinados valores no conjunto ordenado de dados. Entre as medidas de posição, destacamos: · Tendência central: observadas no centro do conjunto ordenado, são elas: média, moda e mediana. · Medidas separatrizes: determinam valores que dividem o conjunto em partes iguais; os quartis, por exemplo, dividem o conjunto em quatro partes de mesmo tamanho. A seguir, vamos explicar mais sobre essas medidas, fique atento! 1.1.1 Média Média: É representada pelo símbolo x quando se refere a uma amostra; ou m (mi), quando se refere à população. É calculada pela razão entre o somatório de todos os dados observados e o número de dados (quantidade). Quando temos um rol ou acesso aos dados originais (não agrupados), é representada pela fórmula n x x å = , onde å x é o somatório de todos os valores observados e n é a quantidade de dados coletados. Observe: Exemplo: Determine a média para o conjunto: 85, 82,97, 88, 89, 97, 89, 93, 88, 97, 96, 97, 98, 93, 97 Observe que temos 15 elementos no conjunto. Deste modo, a média será a soma desses elementos dividido por 15. Veja! 4 , 92 15 1386 15 97 93 98 97 96 97 88 93 89 97 89 88 97 82 85 = = + + + + + + + + + + + + + + = ® = å x n x x Já para trabalharmos com dados de tabelas de distribuição, utilizaremos a média aritimética ponderada. Conheça as fórmulas: Cálculo da média em tabelas de distribuição de frequência Sem intervalo de classe Com intervalo de classe n x f x å = . å x f . é o somatório do produto entre o valor da variável e sua respectiva frequência. n é a frequência total. n pm f x å = . 1.1.2 Moda Moda: É o valor mais frequente no conjunto, ou seja, aquele que se repete mais vezes. É representada pela sigla Mo. Exemplo 1: Determine a moda no conjunto: 85, 82, 97, 88, 89, 97, 89, 93, 88, 97, 96, 97, 98, 93, 97. Mo = 97, pois esse é o valor que aparece o maior número de vezes (cinco vezes, conforme você pode observar no conjuto) Na distribuição de frequência sem intervalo, a moda será o valor que possuir a maior frequência simples (f). Um conjunto pode apresentar mais de uma moda, será BIMODAL quando apresentar dois valores que se repetem em igual número de vezes sendo esses o maior do conjunto; trimodal, se forem três valores. Exemplo: Conjunto Bimodal: 2, 3, 3, 3, 5, 5, 7, 7, 7, 8, 8, 9. Mo = 3 e 7 (repare que esses números aparecem três vezes, conforme destaco abaixo.) Conjunto bimodal: 2, 3, 3, 3, 5, 5, 7, 7, 7, 8, 8, 9. Para conjuntos onde não há repetição, ou onde todos os valores aparecem em igual número de vezes, não haverá moda. Esses conjuntos recebem o nome de AMODAL. Exemplo: Conjunto Amodal: 10, 10, 12, 12, 15, 15, 19, 19. Para determinação da moda em dados não agrupados, observamos o elemento que mais se repete. Exemplo 2 – Sem intervalo de classe: Número de cômodos ocupados por vinte famílias entrevistadas ( ) ( ) 9864 , 0 14131824 3708 ] 442 20396 10 [ ] 76 742 10 [ 442 76 3730 10 ] [ ] [ 2 2 2 2 2 2 = = - ´ × - ´ ´ - ´ = = - × × - × × - × × = å å å å å å å y y n x x n y x y x n r Belo Horizonte 2005 x f 2 4 3 7 4 5 5 2 6 2 Total 20 Fonte: Dados fictícios Para distribuição com intervalo de classe, a moda será calculada pela aplicação da fórmula de Czuber à classe com maior frequência simples (f). ) ( 2 ) ( 1 2 1 1 post ant f f D f f D h D D D Li Mo - = - = × + + = Legenda: Li é o limite inferior da classe considerada. D1 é a diferença entre a frequência simples da classe e a frequência simples da classe anterior. D2 é a diferença entre a frequência simples da classe e a frequência simples da classe posterior. h é a amplitude da classe (Ls – Li). Ls: Limite superior da classe f: Frequência simples absoluta da classe f (ant): Frequência simples absoluta da classe anterior f (post): Frequência simples absoluta da classe posterior 0 10 20 30 40 50 60 70 024681012 Exemplo 3 – Com Intervalo
Compartilhar