Baixe o app para aproveitar ainda mais
Prévia do material em texto
Disciplina: Estatística Autora: Janine Velloso Unidade de Educação a Distância ESTATÍSTICA Autora: Janine Velloso Belo Horizonte / 2012 ESTRUTURA FORMAL DA UNIDADE DE EDUCAÇÃO A DISTÃNCIA REITOR LUÍS CARLOS DE SOUZA VIEIRA PRÓ-REITOR ACADÊMICO SUDÁRIO PAPA FILHO COORDENAÇÃO GERAL AÉCIO ANTÔNIO DE OLIVEIRA COORDENAÇÃO TECNOLÓGICA EDUARDO JOSÉ ALVES DIAS COORDENAÇÃO DE CURSOS GERENCIAIS E ADMINISTRAÇÃO HELBERT JOSÉ DE GOES COORDENAÇÃO DE CURSOS LICENCIATURA/ LETRAS LAILA MARIA HAMDAN ALVIM COORDENAÇÃO DE CURSOS LICENCIATURA/PEDAGOGIA LENISE MARIA RIBEIRO ORTEGA INSTRUCIONAL DESIGNER DÉBORA CRISTINA CORDEIRO CAMPOS LEAL KELLY DE SOUZA RESENDE PATRICIA MARIA COMBAT BARBOSA EQUIPE DE WEB DESIGNER CARLOS ROBERTO DOS SANTOS JÚNIOR GABRIELA SANTOS DA PENHA LUCIANA REGINA VIEIRA ORIENTAÇÃO PEDAGÓGICA FERNANDA MACEDO DE SOUZA ZOLIO RIANE RAPHAELLA GONÇALVES GERVASIO AUXILIAR PEDAGÓGICO ARETHA MARÇAL DE MACÊDO SILVA MARÍLIA RODRIGUES BARBOSA REVISORA DE TEXTO MARIA DE LOURDES SOARES MONTEIRO RAMALHO SECRETARIA LUANA DOS SANTOS ROSSI MARIA LUIZA AYRES MONITORIA ELZA MARIA GOMES AUXILIAR ADMINISTRATIVO THAYMON VASCONCELOS SOARES MARIANA TAVARES DIAS RIOGA AUXILIAR DE TUTORIA FLÁVIA CRISTINA DE MORAIS MIRIA NERES PEREIRA RENATA DA COSTA CARDOSO Sumário 5Unidade 1: Introdução 26Unidade 2: Técnicas de Amostragem 44Unidade 3: Estatística Descritiva 65Unidade 4: Probabilidade e distribuição de probabilidade 82Unidade 5: Tamanho da amostra 97Unidade 6: Correlação e regressão linear simples Ícones Comentários Reflexão Dica Lembrete Unidade 1: Introdução 1. Nosso Tema Você já ouviu falar em estatística? Alguns podem dizer que não, mas é pouco provável. Talvez apenas não tenham associado às informações que lêem nos jornais, ouvem nos rádios ou que assistem pela TV com o conceito de estatística. Em nosso dia-a-dia, a estatística está sempre presente. Por exemplo, quando você assiste à previsão do tempo, aos cálculos de temperatura máxima, mínima e à previsão de chuva, tudo isso está relacionado a cálculos estatísticos. Na área econômica, temos os indicadores econômicos como o IPC (Ìndice de Preços ao Consumidor), o PIB (Produto Interno Bruto) e muitos outros. Todos esses números são calculados com base estatística e visam descrever o panorama econômico de um país em determinado período. Outro exemplo muito importante: O Censo Populacional feito pelo IBGE (Instituto Brasileiro de Geografia e Estatística). O censo populacional é uma pesquisa feita com toda a população de um país. Ele coleta informações sobre as condições de vida da população (escolaridade, saúde, saneamento básico entre outros). Mas qual a importância desse estudo? A partir da análise dos dados coletados pelo Censo, o governo avalia suas políticas públicas nas áreas da saúde, educação, distribuição de renda etc., e é capaz de redirecionar recursos e criar novas políticas que atendam as necessidades da população. No campo empresarial, a estatística está presente de diversas formas. Pode ser no controle de qualidade numa linha de produção, na pesquisa de opinião de consumidores sobre um novo produto. Esses são apenas alguns exemplos. Nesta unidade, você encontrará uma introdução ao estudo de estatística. Nosso objetivo é que conheça alguns conceitos e definições, base para nosso estudo. Vamos em frente! 2. Para Refletir Você deve estar se perguntando: “Por que estudar estatística?” Como futuro profissional da área de gestão, você deve ser capaz de criar e avaliar estratégias, ações internas e externas que visem não só à permanência da sua empresa no mercado de forma competitiva, mas também ao crescimento dela. Mas como fazer isso? Quais as necessidades dos meus colaboradores? Quais as necessidades dos meus clientes? Qual a posição da minha empresa em relação aos concorrentes? O que fazer para aumentar os lucros? O que fazer para diminuir os Custos? Essas e outras questões podem ser respondidas com o auxílio da estatística. 3. 3 5 , 2 53 135 135 53 15 . 9 . 53 = = = = = y y y y y Conteúdo Didático 3.1. O que é estatística? Estatística é uma ciência que compreende todo um conjunto de métodos para coletar, organizar, resumir, apresentar, analisar um (ou mais) conjunto de dados, que permitam quantificar, qualificar ou ordenar de tal modo que possamos concluir, deduzir ou predizer propriedades, eventos ou estados futuros. Para facilitar o entendimento, a estatística pode ser dividida em três grandes áreas: · Estatística descritiva: responsável pelo tratamento preliminar dos dados, resumo, apresentação e análise de dados. · Probabilidade: estudo de fenômenos de caráter aleatório, aqueles de resultados possíveis, mas incertos. · Inferência: aplicação de técnicas que permitem extrapolar resultados da pesquisa feita num pequeno grupo (amostra) para um grupo maior (população). Engana-se aquele que pensa que a estatística começa com as informações em mãos. O método estatístico tem fases que vão desde a preparação até a conclusão final da pesquisa. Para Crespo (1995, p. 14 e 15), as fases do método estatístico são: 2 2 , 2 53 117 117 53 13 . 9 . 53 = = = = = x x x x x Toda pesquisa começa com uma pergunta. A resposta a essa pergunta consiste do objetivo da pesquisa. No planejamento é feita a delimitação do problema, a construção do objetivo, a elaboração do cronograma de atividades, a planilha de custos, a determinação da população e da amostra (se for o caso), como os dados serão analisados (manualmente ou por computador), tipo de informação (questionário ou observação), modelo para registro das informações coletadas; em suma, todos os passos a serem dados desde a pergunta inicial até sua resposta. 4 2 , 4 53 225 225 53 25 . 9 . 53 = = = = = z z z z z A coleta de dados é o segundo momento do método. Após a conclusão do planejamento, fazemos a coleta de dados. Existem diversos meios de se coletar dados. Um dos mais utilizados é o questionário, que pode ser aplicado por um entrevistador pessoalmente ou por telefone, ou pode ser enviado por correio ou e-mail. Esses últimos possuem o inconveniente de muitos questionários não serem devolvidos. Ao elaborar um questionário, devemos levar em consideração alguns aspectos importantes como a forma e o tipo de pergunta que será feita ao respondente. De maneira geral, a informação do questionário relata aquilo que o entrevistado acha conveniente responder; então, evite perguntas constrangedoras; garanta ao entrevistado o anonimato das respostas. Assim, ele vai se sentir mais confortável para responder com honestidade às questões. 7 5481 , 6 48 log 3 , 3 1 log 3 , 3 1 @ = + = + = i i i N i Evite questionários extensos, o entrevistado pode ter pressa em acabar e responder sem compromisso. Para a redação das questões, evite textos extensos, seja sucinto e utilize vocabulário adequado ao público que será entrevistado. Todo questionário deve ser auto-explicativo, evitando dúvida ou a interferência do entrevistador. Não utilize perguntas que dê margem a múltiplas interpretações; seja direto. Devemos considerar ainda o entrevistador, todo o sucesso da sua pesquisa depende da qualidade das informações coletadas. Elaborar um bom questionário não significa que sua pesquisa está a salvo. O entrevistador exerce um papel importantíssimo. O quadro de entrevistadores deve ser formado por pessoas capacitadas. É recomendado fazer treinamento, para que eles conheçam o questionário e a pesquisa como um todo. O entrevistador deve estar ciente do seu papel dentro da pesquisa e da importância do seu trabalho; caso contrário, as informações trazidas por ele podem não ser confiáveis. ) ( 2 ) ( 1 2 1 1 post ant f f D f f D h D D D Li Mo - = - = × + + = Durante a abordagem, o entrevistador deve, em primeiro lugar, se identificar e explicar o objetivo da pesquisa, - afinal de contas, ninguém fornece informações pessoais e particularessem um bom motivo, não é mesmo? – e, então, deixar que o entrevistado responda ao questionário sozinho, fazendo esclarecimento somente se solicitado. 3 , 4 3 , 0 3 6 6 1 , 4 3 8 11 6 5 11 2 1 = × + + = = - = = - = Mo D D Após a coleta dos dados, passamos à crítica. Essa etapa visa eliminar, do conjunto de questionários respondidos ou do conjunto de observações, possíveis falhas, sejam questionários incompletos ou dados ilegíveis. Na etapa de apuração de dados, processamos as informações manual ou eletronicamente. Hoje, são raras as apurações manuais, dada a grande variedade de recursos tecnológicos para apuração de dados. População brasileira 1920/2000 0 20 40 60 80 100 120 140 160 180 19201940195019601970198019912000 Ano milhões de habitantes Após a apuração dos dados, passamos aos cálculos pertinentes e elaboramos tabelas e gráficos para apresentar os resultados. Existem normas para apresentação de tabelas e gráficos em textos científicos, estabelecidas pela ABNT (Associação Brasileira de Normas Técnicas) e pelo IBGE que podem ser consultadas em http://www.sei.ba.gov.br/norma_tabular/normas_apresentacao_tabular.pdf . n pm f x å = . Como última etapa, temos a análise dos resultados. É nessa fase que será feita a conclusão da pesquisa levando em conta o seu objetivo e os resultados obtidos. Podemos ainda ir mais fundo na análise de dados, utilizando inferência estatística. å pm f . Mas, como a estatística será utilizada em administração de empresas? Umas das principais atividades, senão a principal, de um gestor é a tomada de decisão. A estatística aparece, nesse cenário, como uma ferramenta que irá fornecer subsídios para decidir. Ela pode ser utilizada como sondagem, obtendo e analisando dados que possibilitem avaliação da situação atual, que visem ao estabelecimento de metas para criar melhorias. Pode ser usada também como método para verificação ou avaliação de planos de ações já implementados, possibilitando a adequação de recursos humanos, financeiros ou de materiais. 3.2. Posicionamento histórico A estatística remonta dos primórdios da história humana. Os egípcios e os persas já registravam informações relativas a grupos sociais em 3000 a.C. A princípio, sua utilização estava ligada à cobrança de impostos e às práticas militares e governamentais. A partir do século XVI, aparecem as primeiras análise sistemáticas, com o surgimento de tábuas, tabelas e números relativos. Consideramos que, por volta do século XVII, iniciaram-se os estudos formais sobre probabilidade. Segundo Milone (2004), o surgimento dos estudos preliminares sobre o assunto aconteceu por causa da populariadade dos jogos de azar que utilizavam dados e cartas de baralho, gerando, na comunidade da época, certa curiosidade. De fato é nessa época que surgem as indagações de Méré (1607-1684) – jogador, filósofo e homem das letras – e Pascal (1623–1662) – filósofo, físico e matemático – sobre jogos de azar; mas é na correspondência trocada entre Pascal e Fermat (1601-1665) que ambos chegam a um mesmo resultado para o problema da divisão das apostas, questão teórica proposta por Méré (Milone, 2004, p. 345). Com a evolução dos estudos sobre probabilidade, surgem as distribuições de probabilidade e modelagem matemática, base da inferência estatística que permite a extrapolação de conclusões sobre uma parte do conjunto para o todo. Saiba mais sobre a história da estatística nos sites indicados na seção Amplie seus conhecimentos. Atualmente, são muitos os recursos tecnológicos apropriados pela estatística. Os mais acessíveis e simples são as calculadoras científicas, que permitem cálculos diretos com a utilização de banco de dados armazenados na memória interna. Para saber como operar as funções estatísticas da sua calculadora, leia o manual! Cada calculadora funciona de maneira diferente. Temos ainda programas de análise de dados, elaboração de tabelas e gráficos, como o Excel. Nele é possível executar todos os cálculos da estatística descritiva, como média e desvio padrão; e ainda programas específicos de tratamento estatístico de informações como o Minitab (em sua versão mais recente: Minitab 15) que consiste em uma poderosa ferramenta de análise e apresentação de dados. Você pode baixar uma versão demo, válida por 30 dias, no site http://www.minitabbrasil.com.br/. Mas, fique atento! O programa é todo em inglês; por isso, é necessário conhecimento de língua inglesa e alguns termos técnicos de estatística. No mesmo site, é possível baixar um guia introdutório do programa (também em inglês). Existem ainda outros software de tratamento estatístico de dados, de domínio público, ou seja, que podem ser baixados direto da internet e não necessitam de licença. No site http://www.unifa.aer.mil.br/ecemar/pesquisa/software%20para%20analise%20de%20dados.htm, você encontrará diversos links para baixar esses programas e também para sites de estatística. 3.3. Variáveis Numa pesquisa ou estudo, a característica ou o fenômeno de interesse recebe o nome de variável (MAGALHÃES E LIMA, 2001). Por exemplo, quando perguntamos a idade dos alunos numa turma, a variável em questão é a idade. Quando retiramos alguns parafusos numa linha de produção para avaliar o peso, a variável em questão é peso. Uma das maneiras mais simples de obtenção de informações é através de questionário. Nele, diversas variáveis são pesquisadas simultaneamente como idade, sexo, naturalidade, escolaridade etc. As variáveis podem ser classificadas como qualitativa, quando caracterizam, tipificam ou atribuem uma qualidade ao elemento pesquisado; ou quantitativa, quando surgem da contagem, mensuração ou medição. As variáveis qualitativas podem ser classificadas em nominal, quando indicam categorias mutuamente exclusivas (como sexo, religião, nacionalidade e todas as questões cuja resposta é sim ou não); ordinal, quando indicam possição hierárquica ou sequência classificatórica (como classes sociais, lista de concursos); e intervalar, quando utiliza intervalos de valores para classificar (como filmes em péssimo, ruim, bom, ótimo ou excelente) As variáveis quantitativas podem ser classificadas em discretas, quando assumem valores a partir de contagem (geralmente números inteiros) ou contínuas, quando podem assumir qualquer valor num dado intervalo, como medidas de peso e estatura, por exemplo. 55 , 3 20 71 . = = ® = å x n pm f x n x f x å = . Exemplos de variável qualitativa: sexo (nominal), naturalidade (nominal), nacionalidade (nominal), opinião sobre qualidade de serviço (intervalar: muito bom, bom, regular e ruim), colocação na tabela do campeonato de futebol (ordinal: 1º lugar, 2º lugar) etc. Exemplos de variável quantitativa: · Discreta: idade, número de filhos, número de alunos numa turma, etc. · Contínua: peso, estatura, área, volume, etc. 3.4. População e Amostra Nos estudos estatísticos, o objetivo é conhecer ou descrever características ou propriedades para um conjunto de dados, para, a partir daí, tirar conclusões. Ao conjunto de todos os elementos que possuem uma (ou um conjunto) de características em comum, de interesse da pesquisa, ou seja, objeto de estudo, damos o nome de população ( DOWING ; CLARK, 2003). Muitas vezes não é possível pesquisar todos os elementos de uma população. A população pode ser grande e de difícil acesso aos pesquisadores, gerando um custo muito alto, ou ainda, grandes volumes de dados que podem dificultar ou demorar muito para serem analisados. Como seria possível uma empresa entrevistar todos os seus consumidores? – um problema de tempo e dinheiro. Existem ainda razões éticas, por exemplo, nas pesquisas feitas com seres vivos. Ou ainda situações, onde é realmente impossível, como no caso do exame de sangue de uma pessoa. Não poderíamos extrair todo o sangue para que fosse feita a pesquisa, não é mesmo? å x E, então, se não podemos acessar todos os elementos ou indivíduos da população, o que fazer? Utilizamos uma parte dessapopulação. Esse subconjunto de elementos ou indivíduos que pertence à população recebe o nome de amostra. 55 , 3 20 71 . = = ® = å x n x f x x Existem regras a serem seguidas para seleção de amostras. Elas serão estudadas na Unidade 2. Não perca! 3.5. Tipos de Dados Os dados de uma pesquisa, assim como são coletados, formam um conjunto chamado dados brutos, ou seja, não sofreram nenhum tipo de ordenação ou organização. Após uma organização preliminar, seja ordenação em ordem alfabética ou numérica, o novo conjunto recebe o nome de rol. Vejamos Dados Brutos Rol 1,83 m 1,58 m 1,58 m 1,63 m 1,79 m x 1,77 m 1,94 m 1,79 m 1,63 m 1,82 m 1,77 m 1,83 m 1,82 m 1,94 m Os dados coletados por meio de entrevista ou observação dos elementos ou indivíduos, alvo de estudo, são chamados dados primários. Aqueles fornecidos por outras fontes de estudo ou pesquisa, sejam dados do IBGE, das prefeituras, ou outras entidades são chamados dados secundários, e podem ser utilizados desde que acompanhados da fonte que os produziu, como podemos ver na tabela abaixo: Tabela 1 – Dados gerais da indústria da construção – 2004-2005 Período Número de empresas Pessoal Ocupado Salários, retiradas e outras remunerações Valor das construções executadas Construções p/ entidades públicas Receita operacional líquida Receita Proveniente do exterior 1.000 R$ 1.000.000 2004 109 1 615 15 697 96 341 41 301 95 260 2 200 2005 105 1 554 15 547 100 007 41 685 98 749 3 073 Fonte: IBGE, Diretoria de Pesquisa, Coordenação da Indústria, Pesquisa Anual da Indústria da Construção 2004-2005 3.6. Séries estatísticas 3.6.1. O que são? São tabelas que trazem dados resumidos de um estudo ou pesquisa em função da época, do local ou de uma categoria (CRESPO, 1995). Mas qual a diferença entre quadro e tabela? Tanto os quadros como as tabelas dispõem as informações em linhas e colunas; porém, as tabelas permitem cálculos e leituras em diversas direções, enquanto os quadros apenas apresentam dados. Além disso, as tabelas exigem um rigor técnico de apresentação. Para trabalhos e publicações científicas, as tabelas devem seguir as Normas de Apresentação Tabular do IBGE, citadas anteriormente e disponíveis em: http://www.sei.ba.gov.br/norma_tabular/normas_apresentacao_tabular.pdf. 3.6.2. Classificação Podemos classificar as séries estatísticas de acordo com a variação dos dados apresentados, variação essa em função do período, do local ou de espécie. Quando uma série estatística apresenta dados com variação do período, ou tempo, recebe o nome de histórica (ou cronológica ou temporal). Essa variação pode ser expressa em anos, meses, dias ou qualquer outra unidade temporal necessária. Exemplo: População brasileira – 1920/2000 Ano População (em milhões de habitantes) 1920 30,6 1940 41,2 1950 51,9 1960 70,2 1970 93,1 1980 121,1 1991 146,8 2000 166,1 Md Mo x = = Fonte: Censo Demográfico do IBGE. Série geográfica (ou territorial ou espacial) apresenta informações em função do local, que pode ser por cidades, estados, países etc. A época e o fenômeno estudados se mantêm constantes. Exemplo: Áreas continentais (106 km2) Continente Área Ásia 43,608 África 30,335 América do Norte 23,434 América do Sul 17,611 Antártida 13,340 Europa 10,498 América Central 1,915 Oceania 8,923 382 , 0 146 , 0 2 @ = = s s s Fonte: Atlas Mundial Folha de S. Paulo. Já a série específica (ou categórica) mantém fixos o local e o período do estudo, variando a categoria dos dados. Observe o exemplo abaixo: ( ) ( ) [ ] ( ) [ ] 146 , 0 556 , 485 49 , 489 27 1 28 6 , 116 49 , 489 27 1 1 1 2 2 2 2 2 » - × = = ú ú û ù ê ê ë é - × = ú ú û ù ê ê ë é × - × × - = å å s n pm f pm f n s 146,0 27 9348,3 128 9348,3 1 16,4 28 6,116 2 2 2 s n xpmf s n pmf x Número de correspondências da semana – Revista Veja – 20-27/04/2004 Tipo Quantidade E-mails 1932 Cartas 94 Fax 44 Total 2070 Fonte: Veja 28/04/2004 Todos os exemplos anteriores apresentam séries simples, ou seja, tabelas que contêm apenas duas colunas. Existem séries que necessitam de tabelas com maior número de colunas, são as chamadas séries conjugadas. A classificação das séries conjugadas segue o mesmo critério das séries simples (histórica, geográfica ou específica), mas a sua classificação será composta por dois nomes como, por exemplo, histórico-geográfica ou específico-geográfica. Acompanhe os exemplos abaixo e veja como é feita a classificação de séries conjugadas. ( ) ( ) [ ] [ ] 52 , 1 3 5236842105 , 1 05 , 252 281 19 1 20 71 281 19 1 1 1 2 2 2 2 2 » = = - × = ú ú û ù ê ê ë é - × = ú ú û ù ê ê ë é × - × × - = å å s n x f x f n s x Número de municípios das regiões brasileiras – 1940/2001 Região 1940 1950 1960 1970 1980 1990 1997 2001 Norte 88 99 120 143 153 298 449 449 Nordeste 584 609 903 1.376 1.375 1.509 1.787 1.792 Sudeste 641 845 1.085 1.410 1.410 1.432 1.666 1.668 Sul 181 224 414 717 719 873 1.159 1.188 Centro-Oeste 80 112 244 306 317 379 446 463 Fonte: IBGE A série acima apresenta número de municípios em função da região e do ano. Por isso, será classificada como série histórico-geográfica. ( ) [ ] 1 2 2 - - × = å n x x f s 52 , 1 3 5236842105 , 1 19 95 , 28 1 20 95 , 28 2 » = = - = s ( ) 83 , 26 8285714286 , 26 14 6 , 375 1 15 6 , 375 1 2 2 2 @ = = - = - - = å s n x x s Terras Indígenas – Brasil – 2000 Região Demarcadas Não demarcadas Norte 175 131 Nordeste 42 25 Sudeste 23 5 Sul 28 33 Centro-Oeste 31 13 Total 299 207 FONTE: IBGE, Diretoria de Geociências Por apresentar dados sobre terras indígenas em função da região e de categoria (demarcadas e não demarcadas), essa série é classificada como específico-geográfica. Para classificar séries estatísticas, devemos observar, em função do que os dados estão sendo apresentados, tempo, local ou categoria. Nas tabelas de apenas duas colunas, observamos os dizeres da primeira coluna, se for indicado tempo, seja em anos ou meses ou outra medida de tempo, sua classificação será histórica; se for indicado lugar, pode ser cidades, estados etc., será geográfica; caso indique espécie ou categoria, será específica. ( ) [ ] 83 , 26 8285714286 , 26 6 , 375 14 1 4 , 128066 128442 14 1 15 1386 128442 14 1 1 1 2 2 2 2 2 @ = × = = - × = = ú û ù ê ë é - × = ú ú û ù ê ê ë é - - = å å s n x x n s Você sabia que para classificação de séries apresentadas por tabelas de três ou mais colunas, devemos observar as informações da primeira linha e da primeira coluna, analisando os dizeres – a que se referem? Tempo, lugar ou categoria? Após a identificação, associamos os nomes separando com hífen como específico-geográfico. Não deixe de visitar o ambiente de aprendizagem. Lá, você encontrará muito exemplos de séries estatísticas. Boa aula e até a próxima unidade! 4. x Teoria na Prática Agora é hora de praticar! Utilize os conceitos trabalhados para solucionar as questões! Sempre que necessário, consulte o texto didático e bom trabalho! Observe a reportagem abaixo extraída de: http://www.jornaldoestado.com.br/index.php?VjFSQ1VtUXlWa1pqU0ZKUFVrZDRUMWxYYzNoTk1WRjNWV3RLYVZadVFsWlVWVkpUVkRKU05rMUVhejA9 , acesso em 14/05/2007. Pesquisa traça o perfil do usuário da internet IBGE contou 32,1 milhões de usuários da internet no país, que é dominada pelos jovens V inte e um por cento (32,1 milhões) da população de 10 anos ou mais de idade acessaram pelo menos uma vez a Internet em algum local - domicílio, local de trabalho, estabelecimento deensino, centro público de acesso gratuito ou pago, domicílio de outras pessoas ou qualquer outro local - por meio de microcomputador. As informações fazem parte do suplemento da Pesquisa Nacional por Amostra de Domicílios - PNAD de 2005 sobre acesso à Internet e posse de telefone móvel celular para uso pessoal, divulgada nessa sexta-feira, 23. O levantamento, realizado pelo IBGE, em parceria com o Comitê Gestor da Internet no Brasil - CGI.br, mostrou também que o rendimento, o nível de instrução e a idade apresentam reflexos evidentes no acesso à Internet. Dentre os 32,1 milhões de pessoas que acessaram a Internet, em 2005, a maior parte era de homens(16,2 milhões), tinha entre 30 a 39 anos (5,8 milhões), 13,9 milhões eram estudantes, 20 milhões integravam a população ocupada e 4,2 milhões era de trabalhadores de serviços administrativos. Segundo a pesquisa, os internautas tinham em média 28 anos de idade, 10,7 anos de estudo e um rendimento médio mensal domiciliar per capita de R$1.000,00. Além disso, metade dos internautas utilizou a rede no domicílio em que morava e 39,7% em seu local de trabalho. A conexão discada à Internet mostrou-se mais difundida que a banda larga. 1/3 dos jovens de 15 a 17 anos são internautas Os usuários da Internet apresentaram perfil bastante distinto daquele das pessoas que não utilizaram a rede. As diferenças entre esses dois grupos se tornam evidentes no confronto de suas características de idade, nível de instrução e rendimento. A idade média da população de 10 anos ou mais de idade, usuária da Internet, situou-se em 28,1 anos, sendo expressivamente menor que a das pessoas que não usaram esta rede (37,5 anos). A pesquisa verificou que a utilização da Internet estava mais concentrada nos grupos etários mais jovens. No grupo de 15 a 17 anos de idade, 33,9% das pessoas acessaram essa rede, sendo este resultado maior que os das demais faixas etárias. Esse percentual foi declinando com o aumento da faixa de idade, atingindo 7,3% no contingente de 50 anos ou mais de idade. A proporção de pessoas que acessaram a Internet no grupo etário de 10 a 14 anos (24,4%) ficou acima daqueles das idades a partir de 30 anos, tanto na parcela feminina como na masculina. Nessa reportagem, verificamos o resultado de uma pesquisa realizada pelo IBGE em parceria com CGI – Comitê Gestor da Internet no Brasil. A PNAD – Pesquisa Nacional por Amostra de Domicílio. Como o próprio nome sugere, é baseada em amostra, e a população referência do estudo é a população brasileira, todos os habitantes do nosso país. Com as informações apresentadas, podemos identificar algumas variáveis de interesse do estudo. Quais são elas? Idade, local onde o acesso foi realizado (domicílio, local de trabalho, estabelecimento de ensino, centro público gratuito ou pago, domicílio de outra pessoa), rendimento, nível de instrução (apresentado em anos de estudo), sexo, tipo de conexão utilizada no acesso (discada ou banda larga). Qual a classificação de cada uma dessas variáveis? Idade: quantitativa discreta; local de acesso: qualitativa nominal; rendimento: quantitativa contínua; nível de instrução: quantitativa contínua; sexo: qualitativa nominal; tipo de conexão: qualitativa nominal. O jornal Correio de Uberlândia apresentou uma reportagem sobre o mesmo assunto, no caderno Cidade no dia 24/03/2007, divulgando dados da mesma pesquisa, com o seguinte título e chamada: “ Pesquisa mapeia uso da internet: Segundo o IBGE, cerca de 79% dos brasileiros nunca acessaram a net.” Que diferenças você percebe ao comparar os títulos e as chamadas das duas reportagens? Não existe certo e errado na divulgação de resultados de pesquisas. Há diferenças na interpretação e enfoque dado aos dados. Podemos perceber que a chamada da segunda reportagem tem um cunho mais negativo, destacando o percentual de brasileiros que nunca acessaram a internet. Observe que a mesma informação está na primeira linha da primeira reportagem, mas sem alarde. Esse exemplo ilustra como devemos ser cautelosos ao apresentar dados. Uma simples alteração de escala na construção de um gráfico pode destacar equivocadamente um comportamento de queda ou ascensão acentuado. O mesmo aconteceu no caso tratado. A informação é a mesma, com a mesma fonte; porém o destaque da informação é diferente em cada uma das reportagens. 5. 7 4 28 1 4 > ® × > ® × > Fac Fac n k Fac Recapitulando O que vimos nesta unidade? Estatística é um conjunto de métodos para coletar, organizar, resumir, apresentar e analisar um ou mais conjunto de dados e deles extrair conclusões. População é o nome dado ao conjunto de todos os elementos que possuem uma ou mais características de interesse do estudo. Amostra é um subconjunto, ou seja, uma parte da população. Variável é o fenômeno ou característica de interesse do estudo. São classificadas da seguinte forma: 98 , 3 3 , 0 5 4 7 8 , 3 4 1 ) ( = × - + = × - × + = Q h f Fac n k Li Q ant k 4 n k × Séries estatísticas são tabelas que apresentam dados que podem ser operados ou analisados em diversas direções. Podem ser classificadas em temporal, geográfica ou específica, quando possuem apenas duas colunas (séries simples) ou através da combinação de dois desses nomes, quando possuem três ou mais colunas (séries conjugadas). Encerramos nossa primeira unidade. Exploramos muitos conceitos, que se tornarão mais claros à medida que prosseguirmos o curso. Na próxima unidade, vamos estudar os fundamentos relacionados à infra-estrutura da tecnologia da informação. Bons estudos e até lá! 6. 5 4 20 1 4 > ® × > ® × > Fac Fac n k Fac Amplie seus Conhecimentos O livro “A hora da verdade” de Jan Carlzon ilustra bem o uso da estatística na área de gestão. Vale a pena lê-lo. Essa obra pode ser encontrada na biblioteca da instituição. Confira! CARLZON, Jan. A hora da verdade. Rio de Janeiro: Sextante, 2005. Para saber mais sobre censo e estatística do Brasil, acesse http://www.ibge.gov.br. Acesso em:10/05/2007. Estatística apresentada de maneira divertida além de muita informação, esse site contém jogos, passatempos e muito mais. Vale a pena conferir! Atenção site português, você pode estranhar algumas expressões regionais. http://www.educ.fc.ul.pt/icm/icm2003/icm24/introducao.htm . Acesso em 10/05/2007. A utilização e importância da estatística aparecem de forma muito clara na pesquisa de mercado. Visite o site do Sebrae e descubra! http://www.sebrae.com.br/br/parasuaempresa/conhecaomercado_843.asp . Acesso em 14/05/2007. Site muito interessante sobre estatística aplicada: http://alea-estp.ine.pt/index.html . Acesso em 15/05/2007. Site oficial do Minitab Brasil: http://www.minitabbrasil.com.br/. Acesso em 14/05/2007. Aqui é possível baixar versão demo do Minitab (válida por 30 dias). Neste site você encontrá links para baixar programas livres, de análise de dados e também muito mais! http://www.unifa.aer.mil.br/ecemar/pesquisa/software%20para%20analise%20de%20dados.htm 7. 14 2 28 2 > ® > ® > Fac Fac n Fac Referências BUNCHAFT, Guenia; KELLER, Sheilah Rubino de Oliveira. Estatística sem mistérios. Vol. I. Petrópolis: Vozes, 3a edição, 2000. CRESPO, Antônio Arnot. Estatística Fácil. São Paulo: Saraiva, 13 ed., 1995. DOWNING, Douglas; CLARK, Jeffrey. Estatística Aplicada. São Paulo: Saraiva, 2a edição, 2003. MAGALHÃES, Macos Nascimento; LIMA, Antônio Carlos Pedroso de. Noções de probabilidade e estatística. São Paulo: IME – USP, 3a edição, 2001. MILONE, Guiseppe. Estatística: geral e aplicada. São Paulo: Pioneira Thomson Learning, 2004. Normas de apresentação tabular do IBGE. Disponível em: http://www.sei.ba.gov.br/norma_tabular/normas_apresentacao_tabular.pdf. Acesso em 14 mai 2007. Unidade 2: Técnicas de Amostragem 1. 24 , 4 3 , 0 11 9 14 1 , 4 2 ) ( @ × - + = × - + = Md h f Fac n Li Md ant Nosso Tema Quando realizamos um estudo, nosso objetivo é conhecer a população para, a partir daí, tomar decisões. Na maioriadas vezes, é impossível consultar todos os elementos dessa população. Essa impossibilidade pode ser: de ordem econômica – gera custos proibitivos à pesquisa – ; por questão de tempo, o prazo para o processamento de dados é muito longo e, quando o resultado está disponível, já não tem mais aplicação; por uma questão ética, como no caso das pesquisas feitas com seres vivos; ou ainda por problemas incontornáveis como o de duração de lâmpadas, teste destrutivo.Nesse último, se tomarmos toda a população, iremos destruí-la e, sem ela, não há por que pesquisar. Então, como fazer a pesquisa ou estudo? Utilizamos uma porção da população denominada amostra, geralmente de tamanho bem inferior ao da população. Nesta unidade, estudaremos as técnicas de seleção de amostras, também chamadas de técnicas de amostragem. Vamos lá! 2. 2 n Para Refletir A fim de conhecer a preferência dos consumidores entre margarina ou manteiga, uma aluna do ensino médio, entrevista todos os moradores da sua rua. Com base nesses dados, é possível estabelecer a preferência brasileira? De maneira alguma! A principal característica de uma amostra é a representatividade. Para que possamos inferir ou extrapolar as informações da amostra para a população, é imprescindível que a amostra em questão represente a população como um todo (CRESPO, 1995, pág. 20). No exemplo citado, a aluna pode, no máximo, dizer a respeito da opção de seus vizinhos. A preferência por um ou outro produto pode estar ligada, entre outros, à situação socioeconômica ou ainda a fatores regionalistas. Para realizar uma pesquisa nacional, seria necessária uma amostra que contemplasse toda a população brasileira. Como selecionar um grupo de elementos dentro da população, para garantir a representatividade? É o que veremos a seguir! 3. 10 2 20 2 > ® > ® > Fac Fac n Fac Conteúdo Didático 3.1. Amostragem: Conceitos e tipos Para que possamos tirar conclusões sobre uma população, tendo como base dados obtidos numa amostra, devemos garantir que a amostra represente a população como um todo. Caso contrário, poderíamos chegar a conclusões equivocadas (MILONE, 2004). Um exemplo claro de como o plano de amostragem é importante, foi o acontecido numa pesquisa de intenção de voto em 1936, durante as eleições presidenciais dos Estados Unidos da América, publicada no Literary Digest. O Literary ouviu a opinião de 2 milhões de pessoas (...). A pesquisa predisse uma fácil vitória para Alfred Landon, quando, na realidade, Franklin D. Roosevelt venceu por ampla margem (DOWNING & CLARK, 2003, pág.177). Ao fazer a seleção da amostra, foi utilizada a lista telefônica. Acontece que, naquele tempo, as pessoas que possuíam telefone não representavam a população adequadamente; logo, essa não era uma amostra representativa (DOWNING & CLARK, 2003). Mas, como garantir uma amostra representativa? Ocorre que o melhor sistema de escolha de amostra consiste em não adotar qualquer sistema – em outras palavras, a amostra deve ser selecionada de modo completamente aleatório. O sistema deve ser delineado de modo completamente aleatório. O sistema deve ser delineado de modo que todos tenham a mesma chance de ser incluídos na amostra. E não somente isso – o sistema deve ser planejado de modo que cada amostra que possamos conceber tenha a mesma chance de ser a amostra que efetivamente escolhemos. (DOWNING & CLARK, 2003, p.169) Apesar das amostras aleatórias, ou seja, de elementos sorteados ao acaso geralmente representarem adequadamente uma população, devemos ressaltar certos casos. Seja qual for o método, o importante é a chance de dada característica populacional aparecer na amostra: método ruim é aquele em que tal chance é muito diferente da proporção populacional; método bom é aquele em que a amostra é representativa, isto é, parece uma miniatura da população em estudo, denunciando suas propriedades e proporções (MILONE, 2004, p. 13). As amostras podem ser probabilísticas ou não probabilísticas. A primeira prevê seleção ao acaso, equivalente a um sorteio, uma seleção aleatória dos elementos da amostra, em que cada elemento da população tem uma chance de participar da amostra, conhecida e diferente de zero. Os três principais métodos de amostragem probabilística são: Amostragem Aleatória Simples, Amostragem Sistemática e Amostragem Estratificada. Amostragem probabilística é a seleção de elementos ao acaso. Pode ser realizada com reposição, em que o elemento é sorteado e volta à população, podendo ser sorteado novamente; ou sem reposição, em que o elemento selecionado não retorna à população. Na prática, utilizamos primordialmente a amostragem sem reposição – suponha que cada elemento seja uma pessoa que irá responder a um questionário. Fica sem sentido e incômodo ao entrevistado responder a um mesmo questionário mais de uma vez. A amostragem não probabilística é aquela determinada pelo pesquisador, por isso é subjetiva e depende do julgamento de quem a realiza. Pode ser intencional, quando o elemento é selecionado pelo pesquisador; ou voluntária, quando os elementos populacionais apresentam-se espontaneamente para o estudo (MILONE, 2004, pág. 15). Esse tipo de amostragem pode ainda ser chamada de amostragem por conveniência (DOWNING & CLARK, 2003, pág. 178). ( ) 6 9 5 , 0 5 , 0 9 15 9 × × ÷ ÷ ø ö ç ç è æ = = X P 3.2. Amostragem probabilística 3.2.1. Amostragem aleatória simples É a seleção de elementos para composição de amostra por sorteio ao acaso. Nela, todos os elementos têm igual chance de serem selecionados. Para que seja realizada, é necessária uma listagem ou banco de dados com todos os elementos da população, o que pode, em alguns casos, ser um empecilho. O sorteio é equivalente a escrever o nome ou número identificador de cada elemento da população em um papel, colocar numa urna e sacar os elementos para constituir a amostra; porém é uma tarefa difícil, dependendo do número de elementos da população. Para simplificar e agilizar, utilizamos a tabela de números aleatórios (TNA) ou a geração de números aleatórios por programas de computador (o Excel é um deles) para substituir o sorteio. Para gerar números aleatórios no MS Excel ®, utilize a função ALEATÓRIO. Ela irá fornecer um número aleatório entre zero e um. Para modificar o formato do número, basta multiplicá-lo por 10 ou 100 ou 1000 ou da maneira que desejar e formatar o número para que não tenha casas decimais. 5005 720 3603600 1 2 3 4 5 6 ! 9 ! 9 10 11 12 13 14 15 ! 6 ! 9 ! 15 9 15 = = × × × × × × / / × × × × × × = × = ÷ ÷ ø ö ç ç è æ Vamos ver como é o processo no MS Excel ® ? No menu inserir, escolha a opção Função. Na tela seguinte, escolha a função Aleatório e clique em Ok. O MS Excel ® irá apontar a célula que receberá a seguinte função: =ALEATÓRIO(), como na imagem abaixo: ( ) % 27 , 15 1527 , 0 5 , 0 5 , 0 5005 9 6 9 = = × × = = X P Completar a fórmula =ALEATÓRIO() com *10, se os números forem de 1 a 10, ou com *100, se os números forem de 1 a 100, e assim, sucessivamente. Tecle Enter. ( ) % 25 2 = = X p Selecione a célula onde está o número. Vá até a opção Formatar e escolha Células. Na janela seguinte, escolha a guia Número e selecione a opção Número. Em Casas Decimais, digite O (zero) e clique em Ok. 55 , 0 55 870 900 = - = - = s x x z Atenção! Essa é uma função volátil, a cada movimento, os números serão alterados; então, se quiser fixar alguns, você terá que copiá-los para um documento de texto, no Word, por exemplo. Você encontrará um gerador de número aleatório na seção Ampliando Seus Conhecimentos. Confira! Para fazer um sorteio utilizando a tabela de números aleatórios (TNA), o pesquisador escolhe um número de linha e coluna para o início da leitura, determinando também o sentido em que a leitura seguirá. A seleção de elementos no sorteio deve respeitar o tamanho da amostra e a natureza da codificação atribuída aos elementos da população. Vejamosa TNA apresentada abaixo utilizando a planilha Excel, da Microsoft. Ela contém 25 linhas numeradas para facilitar a localização dos números e 45 colunas, agrupadas em 9 colunas. Observe! ( ) ( ) 9864 , 0 14131824 3708 ] 442 20396 10 [ ] 76 742 10 [ 442 76 3730 10 ] [ ] [ 2 2 2 2 2 2 = = - ´ × - ´ ´ - ´ = - × × - × × - × × = å å å å å å å y y n x x n y x y x n r ( ) ( ) 9912 , 0 ] 2430 625802 10 [ ] 599 37611 10 [ 2430 599 137808 10 ] [ ] [ 2 2 2 2 2 2 - = - ´ ´ - ´ ´ - ´ = - × × - × × - × × = å å å å å å å r r y y n x x n y x y x n r TNA – Tabela de números aleatórios 1 32426 18772 76910 52223 05238 68340 83545 45972 09442 2 67794 12710 42460 24780 90030 02961 99571 10659 00589 3 21256 08828 23715 26783 59980 89226 13119 19586 76089 4 80360 59202 44605 90518 97349 88563 98942 00781 92871 5 34071 34511 57120 93221 40697 10655 66882 34698 89237 6 32881 71932 63989 58772 21742 46193 81901 50005 20858 7 43091 69604 00583 50492 07066 11961 87265 51507 70217 8 19070 54599 35352 13977 88932 26457 60040 79605 23543 9 04717 73548 32490 08310 30442 95401 57403 56354 70997 10 42311 73906 51389 08515 48005 81686 61784 47462 49884 11 60279 98234 81917 24828 57425 96298 63694 14805 16525 12 18021 57806 35893 30858 77669 11701 38324 23343 74036 13 07024 96703 45757 97743 59126 92698 06885 56983 48849 14 00349 41304 68570 51571 98947 77465 02813 10057 92704 15 52314 44815 53961 76310 62141 10876 31555 56342 54702 16 96071 18088 62008 99879 37250 50233 59561 98799 27858 17 35300 70566 54528 41787 14514 60591 83810 73565 03702 18 99013 14385 96209 88567 33500 27295 90170 36321 33600 19 28832 80419 18474 57848 50193 67892 89323 62861 74689 20 77111 61381 44258 79367 82524 92661 47739 19420 42051 21 69763 60054 13373 60715 99063 17709 46003 74304 57209 22 19353 87117 93237 03310 27611 85279 42926 16244 56277 23 94208 35632 60830 32594 29330 75521 10978 92870 96173 24 40720 35067 14705 36686 10027 00682 21659 14780 71530 25 34357 38587 84847 03914 64454 24832 93534 54344 33008 Vamos, como exemplo, localizar o número na 12ª linha e 8ª coluna. O número indicado é o 8. A partir daí, o sorteio pode continuar para baixo, seguindo o sentido da coluna (o próximo seria 7) ou para a direita seguindo a linha (o próximo seria 0, que representa o número 10) ou em qualquer outra direção preestabelecida pelo pesquisador. Perceba que, fazendo o sorteio de números de um algarismo, poderíamos sortear no máximo 10 elementos sem repetição, (1 a 9, e o 0 representa o número 10), mas, e se nossa população possuir 80 elementos? Temos que garantir que todos participem do sorteio! Então, sortearemos números de dois algarismos, utilizando a coluna indicada e a seguinte. Para o exemplo citado, caso fossem sorteados números de dois algarismos, o primeiro seria o 80 (8ª e 9ª colunas), veja na tabela! 11 60279 98234 81917 12 18021 57806 35893 13 07024 96703 45757 14 00349 41304 68570 15 52314 44815 53961 16 96071 18088 62008 17 35300 70566 54528 Como faremos amostragem sem repetição, caso o número sorteado seja repetido ou esteja fora da população (por exemplo: população com 80 elementos, sorteado o elemento 97), ele será desconsiderado ou ignorado, continuando o sorteio até completar o número de elementos da amostra. Vamos a um exemplo! Os custos médios (em reais) de determinado produto, produzido em um mesmo setor, com a utilização de um mesmo processo, foram observados e registrados em 30 diferentes remessas. Os valores são apresentados a seguir. Extraia uma amostra aleatória simples de tamanho n = 6. TNA 13a L e 13a C. 146 119 118 116 136 106 153 122 139 118 143 116 106 129 122 127 145 120 117 133 141 130 146 124 131 136 141 133 144 133 O primeiro passo é codificar a população, atribuindo um número a cada elemento. O sentido da numeração é preestabelecido pelo pesquisador.Aqui utilizaremos o número da esquerda para direita. 1 146 2 119 3 118 4 116 5 136 6 106 7 153 8 122 9 139 10 118 11 143 12 116 13 106 14 129 15 122 16 127 17 145 18 120 19 117 20 133 21 141 22 130 23 146 24 124 25 131 26 136 27 141 28 133 29 144 30 133 Essa será a numeração a ser sorteada. Precisamos de 6 elementos (numerados de 1 a 30), sorteados pela TNA 15a L e 13a C (consideraremos as colunas 13 e 14, pois precisaremos de números com dois algarismos), seguindo o sentido da coluna para baixo. Como os elementos da população estão numerados de 1 a 30, o sorteio será de números de dois algarismos, desprezando os números repetidos e maiores de 30. Sorteio: o primeiro número é o 9, mas queremos com dois algarismos, logo é 96, que não faz parte da população e será ignorado. Seguimos as colunas para baixo, o próximo é 00 (que representa o 100 e também não faz parte da população e será desprezado), continuamos assim até obter a quantidade de elementos válidos desejada. Observe a leitura da tabela! 14 00349 41304 68570 51571 15 52314 44815 53961 76310 16 96071 18088 62008 1640 , 511 ˆ 4769 , 4 ˆ + - = x y 99879 17 35300 70566 54528 41787 18 99013 14385 96209 88567 19 28832 80419 18474 57848 20 77111 61381 44258 79367 21 69763 60054 13373 60715 22 19353 87117 93237 03310 23 94208 35632 60830 32594 24 40720 35067 14705 36686 25 34357 38587 84847 03914 1 32426 18772 76910 52223 2 67794 12710 42460 24780 3 21256 08828 23715 26783 4 80360 59202 44605 90518 5 34071 34511 57120 93221 6 32881 71932 63989 58772 7 43091 69604 00583 50492 8 19070 54599 35352 13977 9 04717 73548 32490 08310 10 42311 73906 51389 08515 11 60279 98234 81917 24828 Leitura da tabela (sorteio): 96, 00, 52, 20, 47, 25, 37, 23, 83, 70, 84, 05, 02, 52, 09. Os elementos em vermelho são os válidos; então teremos: 20, 25, 23, 05, 02 e 09. Para determinar a amostra, fazemos a correspondência do número sorteado e o elemento da população que ele representa. Amostra: 133, 131, 146, 136, 119 e 139. 3.2.2. Amostragem sistemática A amostragem sistemática pressupõe um intervalo regular para a tomada de elementos para compor a amostra como entrevistar duas pessoas a cada hora, ou retirar 5 aparelhos para inspeção a cada 2 horas na linha de produção de uma fábrica. Esse intervalo regular pode ser estabelecido pelo pesquisador ou calculado a partir do tamanho da amostra que se deseja, através da razão n N , onde N é o tamanho da população e n é o tamanho da amostra. Vejamos um exemplo! A demanda pelo produto X, na primeira semana de dez/06, em 35 estabelecimentos comerciais, revelou os seguintes valores (em número de caixas). Extraia uma amostra sistemática de tamanho 7. 35 19 20 22 36 42 25 42 20 28 24 23 29 33 37 14 22 35 30 30 38 39 29 27 21 27 32 49 18 26 24 33 34 29 39 Primeiro, nós iremos codificar a população, atribuindo um número para identificar cada elemento. 1 35 2 19 3 20 4 22 5 36 6 42 7 25 8 42 9 20 10 28 11 24 12 23 13 29 14 33 15 37 16 14 17 22 18 35 19 30 20 30 21 38 22 39 23 29 24 27 25 21 26 27 27 32 28 49 29 18 30 26 31 24 32 33 33 34 34 29 35 39 Aqui o intervalo será definido de acordo com o tamanho da amostra; logo, para uma população de 35 elementos com uma amostra de 7, o intervalo será de 5 7 35 = , ou seja, a seleção será de 5 em 5. Mas qual será o primeiro elemento? Ele pode ser sorteado pela TNA, seguindo orientações do pesquisador. Atenção, nesse caso, apesar da população conter 35 elementos, o sorteio será apenas do 1º elemento,que poderá ser 1, 2, 3, 4 ou 5, por causa do intervalo de (5 em 5), logo o sorteio será de um número com um algarismo, de 1 a 5. Vamos utilizar a TNA 23ª linha e 26ª coluna. Veja! 23 94208 35632 60830 32594 29330 75521 24 40720 35067 14705 36686 10027 00682 25 34357 38587 84847 03914 64454 24832 O número que aparece na indicação de linha e coluna é o 7, mas não pode ser utilizado (tem que ser de 1 a 5); o próximo (abaixo do 7) é o zero que representa 10, também não serve; logo abaixo vem o 2. Esse será o nosso primeiro elemento. Com isso, nossa amostra será composta pelos elementos de número: 2, 7, 12, 17, 22, 27 e 32 (começando pelo 2 e seguindo intervalo de 5 em 5). Agora é só fazer a correspondência dos números selecionados com os elementos da população. Amostra: 19, 25, 23, 22, 32, 33. 3.2.3. Amostragem estratificada A amostragem estratificada baseia-se na subdivisão da população em estratos (subgrupos). Esses subgrupos da população possuem uma característica comum que os identifica a um único estrato.São exemplos de estratos: masculino e feminino; classe socioeconômica, religião, etnia, etc. É necessário, para a aplicação dessa técnica, o conhecimento da população em relação aos estratos e à participação de cada um na população. Nesse tipo de amostragem, a proporção de cada estrato apresentada na população é respeitada dentro da amostra. Por exemplo, numa universidade, onde 60% dos alunos são do sexo feminino e 40% do sexo masculino, terá uma amostra selecionada, onde as proporções de 60% feminino e 40% masculino serão mantidas. Para isso, os elementos da população são separados previamente. O cálculo do número de elementos a serem selecionados dentro de cada estrato é feito com base no tamanho da amostra e na composição da população. Então, segue uma amostragem aleatória simples dentro de cada estrato. Observe o exemplo! Os dados abaixo referem ao tempo de execução (minutos) de uma dada etapa em um processo produtivo, quando foi observado o desempenho de 53 operários em três diferentes turnos. Turno I : 81 50 86 92 91 91 88 87 86 86 91 87 88 Turno II: 94 94 97 96 96 96 90 94 93 95 97 95 96 97 93 Turno III: 100 98 100 98 108 110 103 105 114 107 98 109 107 109 104 107 106 102 104 99 100 99 191 99 100 Considere cada turno como um estrato e extraia uma amostra estratificada proporcional de tamanho 9. Devemos, em primeiro lugar, identificar os elementos da população, em cada um dos estratos. Turno I : 1 81 2 50 3 86 4 92 5 91 6 91 7 88 8 87 9 86 10 86 11 91 12 87 13 88 Turno II: 1 94 2 94 3 97 4 96 5 96 6 96 7 90 8 94 9 93 10 95 11 97 12 95 13 96 14 97 15 93 Turno III: 1 100 2 98 3 100 4 98 5 108 6 110 7 103 8 105 9 114 10 107 11 98 12 109 13 107 14 109 15 104 16 107 17 106 18 102 19 104 20 99 21 100 22 99 23 191 24 99 25 100 O segundo passo é determinar o número de elementos a ser selecionado dentro de cada estrato.Para isso, calculamos por regra de três simples: 2 2 , 2 53 117 117 53 13 . 9 . 53 = = = = = x x x x x 3 5 , 2 53 135 135 53 15 . 9 . 53 = = = = = y y y y y 4 2 , 4 53 225 225 53 25 . 9 . 53 = = = = = z z z z z ( ) [ ] 83 , 26 8285714286 , 26 6 , 375 14 1 4 , 128066 128442 14 1 15 1386 128442 14 1 1 1 2 2 2 2 2 @ = × = = - × = = ú û ù ê ë é - × = ú ú û ù ê ê ë é - - = å å s n x x n s ( ) 83 , 26 8285714286 , 26 14 6 , 375 1 15 6 , 375 1 2 2 2 @ = = - = - - = å s n x x s 382 , 0 146 , 0 2 @ = = s s s Agora, faremos o sorteio dos elementos de cada estrato, respeitando a quantidade calculada anteriormente. Para o sorteio de cada estrato, utilizaremos uma indicação de linha e coluna diferente, pré-estabelecida pelo pesquisador, seguindo a leitura no sentido da coluna para baixo. Turno I: 2 elementos (1 a 13) TNA 4ª linha 8ª coluna. Fazendo a leitura da tabela na linha indicada e utilizando a 8ª e 9ª colunas, pois a população está numerada de 1 a 13, os números válidos são: 08 e 05. Turno II: 3 elementos (1 a 15) TNA 8ª linha 12ª coluna. Seguindo o mesmo processo para o turno I, os elementos válidos no sorteio são: 13, 08 e 05. Turno III: 4 elementos (1 a 25) TNA 1ª linha 7ª coluna. Da mesma maneira, os elementos válidos para esse turno são: 19, 13, 05 e 04. Com isso, a amostra será formada pelos elementos: Turno I: 87 e 91 Turno II: 96, 94 e 96 Turno III: 104, 107, 105 e 98 Apesar de conter duas vezes o 96, não há repetição de elementos, já que eles são referentes a elementos distintos da população. É o mesmo que acontece quando duas pessoas numa turma têm a mesma idade, o valor é o mesmo, mas os elementos da população são distintos. Isso vale para todas as técnicas estudadas aqui. 3.3. Amostragem não probabilística A amostragem não probabilística é aquela determinada pelo pesquisador, por isso é subjetiva e depende do julgamento de quem a realiza. Pode ser intencional, quando o elemento é selecionado pelo pesquisador; ou voluntária, quando os elementos populacionais apresentam-se espontaneamente para o estudo (MILONE, 2004, pág. 15). Esse tipo de amostragem pode ainda ser chamada de amostragem por conveniência (DOWNING & CLARK, 2003, pág. 178). 7 5481 , 6 48 log 3 , 3 1 log 3 , 3 1 @ = + = + = i i i N i Mas se o pesquisador selecionar os elementos a serem entrevistados ou observados, não seria possível tender o resultado ao desejado, sem refletir, necessariamente, a realidade? Sim, de fato isso é verdade! Mas um pesquisador comprometido com a verdade e, consciente de seu papel na sociedade, não age dessa maneira. Mesmo que tenha selecionado, ele mesmo, intencionalmente os elementos da amostra, não significa que o estudo tenha sido tendencioso. Esse tipo de amostragem é indicado para populações pequenas ou conhecidas a fundo pelo pesquisador ou ainda quando o estudo trata de assunto delicado ou constrangedor (MILONE, 2004, pág. 15). É difícil convencer uma transeunte a dar informações sobre sua vida sexual, por exemplo, ou a tomar um novo medicamento que será testado num grupo de pessoas. Daí a importância desse tipo de amostragem. Mas, devemos tomar cuidado quanto às generalizações feitas com dados coletados em amostras não probabilísticas, pois eles não podem ser submetidos à inferência estatística, já que essa técnica aplica-se somente a amostras probabilísticas. Contudo, não perdem o efeito de retratar uma realidade, devemos apenas informar de maneira criteriosa como a amostra foi selecionada e o motivo de se optar pela amostragem não probabilística. Agora é só praticar! 4. Teoria na Prática Reportagem disponível em: http://www.agenciabrasil.gov.br/noticias/2007/05/21/materia.2007-05-21.7655944788/view. Acesso em: 25/05/2007 Pesquisa da Firjan aponta falha de universidades na formação de futuros empreendedores Alana Gandra Repórter da Agência Brasil R io de Janeiro - As universidades falham na formação de futuros empreendedores, conclui estudo divulgado hoje (21) pela Assessoria de Pesquisas da Federação das Indústrias do Estado do Rio de Janeiro (Firjan). No período de 15 de março a 27 de abril, 1.795 alunos do último ano de 80 universidades públicas (36,2%) e privadas (63,8%) em 26 municípios fluminenses responderam ao questionário. O diagnóstico, segundo o vice-reitor de Planejamento e Desenvolvimento da Universidade Federal do Rio de Janeiro (UFRJ), Carlos Antonio Levy, contém “uma dose de verdade – nossa cultura não tem sido a de estimular esse tipo de iniciativa”. A universidade explicou que ainda segue um modelo de formação “principalmente da elite do funcionalismo público e não é à toa que a pesquisa revela o emprego público como primeira opção para 63,5% dos alunos, apesar de eles teremconsciência das mudanças do mercado". Para 65,6% dos universitários consultados, é insatisfatória a prestação de serviço na área do empreendedorismo, pois raramente as escolas oferecem disciplinas sobre negócio próprio em sala de aula (50,3%), não há estímulo nesse sentido por parte dos professores (57,8%) e quase não é feita análise de casos de empresas durante as aulas (54,4%). Em relação aos principais fatores para se abrir um empreendimento, 50,6% dos pesquisados citaram a posse de capital próprio, seguida por conhecimento do campo de atuação (28%). Somente 7,1% afirmaram que o fundamental é ter uma idéia ou produto inovador. O vice-reitor informou que algumas universidades já começaram a reformar seus currículos e que a UFRJ tem se esforçado para incorporar, especialmente nas áreas tecnológicas como a de engenharia, iniciativas com esse viés. "Mas elas ainda são insuficientes e precisam ser expandidas", completou. Na avaliação do presidente em exercício da Firjan, Carlos Mariani Bittencourt, a sondagem aponta “um paredão para os jovens quando chegam ao final da universidade”. Ele informou que a entidade pretende levar o assunto ao Fórum de Reitores e contribuir para a implantação de programas de empreendedorismo nas instituições de ensino superior do estado. Já o reitor da Universidade Federal Fluminense (UFF), Roberto Sales, contestou em parte a pesquisa, ao afirmar que "a universidade forma o cidadão, é obrigação dela, mas também forma pessoas preparadas para o mercado”. Ele lembrou que na área de ciências humanas essa conotação do empreendedorismo é menor e que tanto a UFF quanto a UFRJ possuem incubadoras de empresas emergentes desenvolvidas por alunos. A pesquisa da Firjan revela, por outro lado, que a maioria dos entrevistados desconhece a existência desse tipo de mecanismo de incentivo. E também como obter crédito (73,6%) ou as principais fontes de financiamento para a abertura de um negócio (66,4%). A reportagem apresentada tem como base a pesquisa realizada pela Firjan (Federação das Indústrias do Rio de Janeiro), logo no primeiro parágrafo é citada a composição da amostra: “ (...) 1.795 alunos do último ano de 80 universidades públicas (36,2%) e privadas (63,8%) em 26 municípios fluminenses responderam ao questionário”. Qual o objetivo de citar tal composição? Como vimos, a principal característica de uma amostra é a representatividade, como o disposto na reportagem. Nela, temos a abrangência da pesquisa, ou seja, foram entrevistados apenas alunos do ensino superior do estado do Rio de Janeiro. Então, esse é o retrato da situação naquele estado. A apresentação da composição da amostra dá ao leitor informações sobre quem respondeu ao questionário. Apesar de identificarmos facilmente dois estratos da população da pesquisa, sendo eles universidades públicas e privadas, não é possível afirmar com base na reportagem que tenha sido utilizada amostragem estratificada. Com informações sobre a amostra utilizada, podemos delimitar o universo (ou população) da pesquisa. Seria um erro, por exemplo, dizer que esse é o retrato da educação superior no Brasil, já que a população pesquisa é apenas do estado do Rio de Janeiro. Sempre que você for apresentar uma pesquisa ou relatório de estudo, apresente o plano amostral. É com base nessa informação que o leitor percebe a abrangência de seu trabalho! Vamos recapitular! 5. Recapitulando Toda amostra deve ser representativa para que possamos, com base nos dados observados na amostra, predizer ou concluir sobre a população. A amostragem é probabilística quando todos os elementos da população têm chance conhecida e diferente de zero de serem selecionados; e é não probabilística, quando os elementos da população são escolhidos ou selecionados pelo pesquisador. A amostragem probabilística pode ser selecionada com reposição, quando os elementos sorteados voltam para a urna ou podem ser considerados mais de uma vez na leitura da TNA (tabela de números aleatórios); ou sem reposição onde cada elemento só pode ser sorteado uma única vez, não retornando à população quando é sorteado, ou é desconsiderado quando seu número aparece novamente na leitura da TNA. As três principais técnicas de amostragem probabilística são: · Amostragem Aleatória Simples: elementos sorteados ao acaso, com utilização de tabela de números aleatórios, recursos computacionais ou outro sistema. · Amostragem Sistemática: os elementos da amostra são selecionados, respeitando um intervalo regular entre eles. · Amostragem Estratificada: a população é separada em subgrupos, o número de elementos sorteados de cada estrato obedece à composição proporcional da população em relação ao tamanho da amostra desejada. Para a seleção dos elementos, é feito sorteio entre os elementos de cada estrato. A amostragem não probabilística é subjetiva e depende do bom senso do pesquisador quanto à seleção dos elementos da amostra. Sua utilização não significa, necessariamente, que o estudo é tendencioso. A amostragem não probabilística pode ser: · Intencional: quando o pesquisador escolhe ou seleciona os elementos da amostra. · Voluntária: quando os elementos da população se oferecem para o estudo. 6. Amplie seus Conhecimentos Quer saber mais sobre técnicas de amostragem? Não deixe de ler o artigo Controle Estatístico de Processos. Disponível em: http://www.datalyzer.com.br/site/suporte/administrador/info/arquivos/info60/60.html. Acesso em: 25/05/2007. Uma outra excelente opção para expandir os conhecimentos adquiridos nesta unidade é o site do prof. Paulo Cezar Ribeiro da Silva, da Faculdade de Ciências Econômicas de Vitória. Mais informações sobre técnicas de amostragem http://www.ai.com.br/pessoal/indices/2A3.HTM. Acesso em: 25/05/2007. Agora se você quer ver como funciona um simulador de tamanho de amostra com base em erro, gerador de números aleatórios num intervalo, não deixe de visitar o site Economia.pro: http://www.economia.pro.br/estatistica.php. Acesso em: 25/05/2007. 7. 0 10 20 30 40 50 60 70 024681012 Referências CRESPO, Antônio Arnot. Estatística Fácil. São Paulo: Saraiva, 13 ed., 1995. DOWNING, Douglas; CLARK, Jeffrey. Estatística Aplicada. São Paulo: Saraiva, 2a edição, 2003. MAGALHÃES, Macos Nascimento; LIMA, Antônio Carlos Pedroso de. Noções de probabilidade e estatística. São Paulo: IME – USP, 3a edição, 2001. MILONE, Guiseppe. Estatística: geral e aplicada. São Paulo: Pioneira Thomson Learning, 2004. Unidade 3: Estatística Descritiva 1. Nosso Tema Quando realizamos um estudo, ou pesquisa, fazemos a coleta de dados. Após a coleta, é feita a apuração dos dados, ou seja, organizamos as informações. Mas, como apresentar o resultado do estudo? A Estatística Descritiva é a parte da Estatística responsável pela coleta, organização e descrição de dados (CRESPO, 1995). Para apresentar os resultados de uma pesquisa, utilizamos tabelas e gráficos. Para descrever o fenômeno estudado, lançamos mão de medidas de resumo, como média e desvio padrão. Nesta unidade, estudaremos as formas de apresentação de dados, e dos resultados de um estudo. Vamos lá! 2. Para Refletir “A estatura média de um jovem adulto brasileiro hoje é de 1,75 m.” Veja a reportagem completa disponível em: http://veja.abril.com.br/especiais/jovens_2003/p_072.html. Acesso em: 05/06/2007. Quando lemos essa frase, temos a idéia sobre o comportamento da variável estatura nos jovens adultos brasileiros, sem ter acesso a todos os dados da pesquisa. Este é o objetivo das medidas de resumo: caracterizar um conjunto de dados por um único número. Mas somente a média não é o suficiente, por isso existe todo um conjunto de medidas que objetivam resumir e caracterizar um conjunto de dados. Como apresentar os dados obtidos numa pesquisa? Quais características foram constatadas através dos dados coletados? Quais os resultados encontrados? Para tirar conclusões sobre um conjunto de dados coletados, devemos organizá-los, mas mesmo após a organização, o volume de dados pode ser muito grande dificultando sua interpretação.Então, para facilitar, construímos tabelas. As tabelas podem ser as séries estatísticas (estudadas na unidade 1) ou distribuição de freqüência, que estudaremos nesta unidade. Os dados de uma pesquisa podem ser apresentados em forma de gráficos. Mas, quais os tipos de gráficos existem? Qual é o mais adequado para determinado conjunto? Como construir um gráfico? É isso aí! Nesta unidade, veremos o que é, e como construir uma tabela de distribuição de freqüência e mais: construção de gráficos e medidas de resumo (quais são e como calculá-las). Mãos à obra! 3. Conteúdo Didático 3.1. Estruturação e apresentação de dados Geralmente, o volume de dados coletados numa pesquisa é grande. Para que possamos interpretar esses dados, é necessário agrupá-los, a fim de facilitar sua leitura. A apresentação dos dados de uma pesquisa é feita através de tabelas e gráficos. As tabelas podem ser as séries estatísticas (estudadas na unidade 1) ou tabelas de distribuição de freqüência, que veremos nesta unidade. Já a apresentação gráfica é muito utilizada, pois permite uma visualização mais rápida que a tabela. Vejamos como construir uma tabela de distribuição de freqüência. 3.1.1. Distribuição de freqüência Tabelas de distribuição de freqüência são aquelas que relacionam o valor da variável (ou um intervalo de valores) com sua freqüência no conjunto de dados observados, ou seja, quantas vezes ela aparece no conjunto. As tabelas de distribuição de freqüência podem ser construídas a partir do valor da variável ou de intervalos; dessa forma, temos dois tipos de tabelas: COM INTERVALO ou SEM INTERVALO. Vejamos: Número de cômodos ocupados por vinte famílias entrevistadas Belo Horizonte 2005 xi f 2 4 3 7 4 5 5 2 6 2 Total 20 Fonte: Dados fictícios O símbolo |– indica que o intervalo, por exemplo 2,9 |– 3,2, é de 2,9 inclusive até 3,2 exclusive; ou seja, os valores desse intervalo são de 2,9 até 3,1. A formatação das tabelas de distribuição de freqüência é a mesma das séries estatísticas. Consulte em http://www.sei.ba.gov.br/norma_tabular/normas_apresentacao_tabular.pdf . Elementos da distribuição: · Classes (i): intervalo de variação da variável ou, simplesmente, os valores da variável. · Limite de classe (Ls e Li): extremos de cada classe. Limite inferior (Li) o menor valor e limite superior (Ls) o maior. · Amplitude de um intervalo (h): diferença entre os limites superior e inferior de uma classe. · Amplitude total (AT): diferença entre o limite superior do último intervalo e o limite inferior de primeiro intervalo. Nas distribuições sem intervalos é a diferença entre o maior e o menor valor que a variável assume. · Amplitude amostral (AA): diferença entre o valor máximo e o mínimo observado na amostra. Observe que, numa distribuição sem intervalo de classe, AA = AT. · Ponto médio de uma classe (pm): média aritmética entre os limites do intervalo. · Freqüência simples (f): número de observações correspondente a uma classe ou um valor da variável. A elaboração da tabela sem intervalo de classe é simples: na primeira coluna, escrevemos os valores que a variável assume e, na segunda coluna, a freqüência, ou seja, quantas vezes ela aparece no conjunto de dados. Já a construção da tabela de distribuição de freqüência com intervalo é mais elaborada. Devemos determinar o número de classes a serem utilizadas, os limites das classes, e, então, determinar a freqüência de cada classe. O número de classes a serem considerados e os limites das classes podem ser estipulados pelo pesquisador de forma conveniente de acordo com os dados a serem apresentados. Mas existem algumas fórmulas que orientam a escolha do número de classe e seus limites. Veja a seguir: Sendo i o número de classes e N o número de dados do conjunto, temos: raiz Sturges Milone N i = N i log 3 , 3 1 + = N i ln 2 1 + - = Os limites dos intervalos podem ser calculados pela formula h= AT/i, lembrando que a amplitude da classe (h) deve ser arredondando sempre para mais (CRESPO, 1995, p. 62) e deve respeitar a precisão dos dados (número de casa decimais). Lembre-se de que o limite superior da classe é excluído pelo uso do símbolo |–, logo, para determinar AT, fazemos AA+1, ou seja, o maior valor do conjunto menos o menor mais um. Na maioria das vezes, devido a arredondamentos, o valor de i x h é diferente de AT. Para que a diferença não fique acumulada de um lado só da distribuição, fazemos um ajuste para centralizar e distribuir a diferença, repartindo igualmente entre o iniício e o fim da AT. Dessa forma, temos a AT a ser considerada na construção dos limites das classes (MILONE, 2004, p. 39). Após a definição do número de classes (i), da amplitude da classe (h) a ser considerada, e da amplitude total ajustada (AT), determinamos os limites das classes somando h ao limite inferior da primeira classe para obter o limite superior, este será o inferior da segunda classe e assim sucessivamente até chegar ao limite superior estipulado pela AT ajustada. Note que o limite inferior da primeira e o limite superior da última classe são iguais aos estipulados pela AT ajustada. Agora é só determinar a freqüência de cada classe. Acompanhe este exemplo: Considere os resultados abaixo, referentes à demanda semanal (número em milhares de caixas), de um certo produto, observada em 48 semanas, em um estabelecimento comercial de médio porte. 248 249 250 250 251 252 253 255 256 257 258 258 259 260 260 260 262 262 263 263 264 264 264 264 265 265 265 265 265 266 266 266 266 266 266 266 266 267 267 268 268 268 268 268 268 269 270 270 Construa uma tabela de distribuição de freqüência com intervalo de classe. 1º) Determinação do número de classes (Pela regra de Sturges, temos): 2º) Determinação da amplitude total (AT): AA = máx – mín ( AA = 270 – 248 = 22 A amplitude total (AT) a ser considerada será 23 (AA + 1); logo, devemos ter limites que vão de 248 até 271, já que o limite superior é excluído da classe pela utilização do símbolo |–. 3º) Determinação da amplitude da classe (h): 4 2857 , 3 7 23 @ = = = h h i AT h 4º) Ajuste AT = 23 ( h x i = 7 x 4 = 28 ( 28 – 23 = 5 A diferença entre AT calculada e o valor de h x i,deve ser repartida entre o início e o fim da distribuição. Como a diferença é um valor ímpar (5), não pode ser repartida igualmente; faremos duas partes desiguais (2 e 3), ficando a maior no final da amplitude total. A princípio, consideramos de 248 até 271, ajustando a diferença, subtraímos 2 no início e acrescentamos 3 ao final; dessa maneira, a amplitude total ajustada será: 248 – 2 = 246 271 + 3 = 274 A amplitude total (AT) ajustada a ser considerada na distribuição é de 246 até 274. 5º) Determinação dos limites dos intervalos Começamos pelo limite inferior determinado pela AT ajustada (246) e acrescentamos h para determinar o limite superior da primeira classe, esse será o limite inferior da segunda; acrescentamos h e teremos o limite superior da segunda classe que será, também, o limite inferior da terceira e assim sucessivamente até atingir o limite superior estipulado pela AT ajustada (274). Observe: 246 250 254 258 262 266 270 274 Os intervalos a serem considerados são: Demanda f 246 |– 250 250 |– 254 254 |– 258 258 |– 262 262 |– 266 266 |– 270 270 |– 274 Total 6º) Determinação da freqüência de cada intervalo. Com os limites das classes prontos, devemos determinar a freqüência pela contagem de elementos que pertencem a cada uma das classes. Como os dados já estão organizados, essa tarefa fica fácil. Observe o conjunto: 248 249 250 250 251 252 253 255 256 257 258 258 259 260 260 260 262 262 263 263 264 264 264 264 265 265 265 265 265 266 266 266 266 266 266 266 266 267 267 268 268 268 268 268 268 269 270 270 A primeira classe contempla valores de 246 até 250, excluindo esse último; logo, osvalores do conjunto que pertencem ao primeiro intervalo são 248 e 249. O 250 pertence ao segundo intervalo (250 |– 254). Dessa forma, a freqüência da primeira classe será 2. A segunda classe engloba os números 250, 251, 252 e 253, sua freqüência será 5 e assim sucessivamente. Demanda (em milhares de caixas) f 246 |– 250 2 250 |– 254 5 254 |– 258 3 258 |– 262 6 262 |– 266 13 266 |– 270 17 270 |– 274 2 Total 48 Tipos de freqüência Freqüência simples (f) → resultante da contagem do número de elementos da amostra pertencente a cada classe. Freqüência acumulada crescente (Fac) → freqüência simples da classe somada a todas as freqüências simples das classes anteriores a ela. Freqüência acumulada decrescente (Fad) → freqüência simples da classe somada com todas as freqüências simples das classes posteriores a ela. Freqüência simples relativa (fr) → razão entre a freqüência simples da classe e a freqüência total. Pode ser informada em porcentagem (%) ou em número decimal. Para o primeiro caso o total deve ser 100 e para o segundo deve ser 1. Devido a sucessivos arredondamentos, pode acontecer do total não ser exatamente igual a 100 (ou igual a 1); nesses casos, devemos ajustar a freqüência da seguinte forma: caso o somatório ultrapasse (100,1; por exemplo), devemos diminuir a diferença (0,1) na menor freqüência, caso o somatório seja menor ( 99,9; por exemplo), devemos acrescentar a diferença na maior freqüência. Se houver empate na maior ou menor freqüência, devemos pegar a segunda maior ou a segunda menor. Esse princípio deve-se ao fato de que não iremos alterar a ordem de grandezas entre as freqüências fazendo esse ajuste, já que o maior continua sendo o maior e o menor continua sendo o menor. Freqüência acumulada relativa (Fr) → freqüência simples relativa da classe somada com todas as freqüências simples relativas das classes anteriores a ela. Assim como a freqüência simples relativa, pode ser informada em porcentagem ou número decimal. Como não existe significado para o somatório das colunas de freqüências acumuladas, utilizamos dois pontos (∙∙) nas células relativas a esses totais na tabela. Acompanhe a determinação dessas freqüências no exemplo: Demanda (em milhares de caixas) f Fac Fad fr (%) Fr 246 |– 250 2 2 48 4,2 250 |– 254 5 7 46 10,4 254 |– 258 3 10 41 6,3 258 |– 262 6 16 38 12,5 262 |– 266 13 29 32 27,1 266 |– 270 17 46 19 35,4 270 |– 274 2 48 2 4,2 Total 48 •• •• 100,1 Perceba que, ao fazer o somatório de fr, obtemos 100,1. Devemos ajustar a freqüência para que o total seja 100. Como há excesso de 0,1, devemos diminuir essa diferença da menor freqüência, que seria 4,2; porém, existem duas classes com essa freqüência, então, devemos utilizar a segunda menor 6,3 referente à classe 254 |– 258, passa ser então 6,2. Demanda (em milhares de caixas) f Fac Fad fr (%) Fr 246 |– 250 2 2 48 4,2 4,2 250 |– 254 5 7 46 10,4 14,6 254 |– 258 3 10 41 6,2 20,8 258 |– 262 6 16 38 12,5 33,3 262 |– 266 13 29 32 27,1 60,4 266 |– 270 17 46 19 35,4 95,8 270 |– 274 2 48 2 4,2 100 Total 48 •• •• 100,0 •• Cada um dos números das colunas de freqüência possui um significado. Observe os valores da 5ª classe: f: Em 13 das 48 semanas pesquisadas, a demanda foi entre 262 e 265 milhares de caixas. Fac: Em 29 semanas, a demanda foi de até 265 mil caixas. Fad: 39 semanas apresentaram demanda de pelo menos 262 mil caixas. fr: Em 27,1% das semanas, a demanda foi de 262 a 265 mil caixas. Fr: Em 60,4% das semanas, a demanda foi de até 265 mil caixas. 3.1.2. Gráficos “Gráfico é a representação visual do fenômeno, em termos de sua evolução ou das relações entre as variáveis nele envolvidas. Também se diz que é a forma mais adequada de transmissão de informação quando se quer acentuar aspectos visuais, instantâneos, globais, dinâmicos e expressivos e quando se deseja facilitar a comparação dos dados computados por meio das proporções entre as grandezas envolvidas.(...) O gráfico ideal é simples, claro e esteticamente agradável (...)” (MILONE, 2004, p. 26 e 27) Gráfico é a representação visual de um fenômeno que utiliza eixos coordenados. Na construção de um gráfico, devemos evitar exageros nas cores, linhas e informações adicionais. Em trabalhos científicos ou publicações científicas, o objetivo principal é a informação e não o apelo visual. Assim como para tabelas, existem normas para apresentação de gráficos determinadas pela ABNT e pelo IBGE. Consulte em: http://www.sei.ba.gov.br/norma_tabular/normas_apresentacao_tabular.pdf acessado em 11/06/2007. Os gráficos podem ser de: linhas, colunas ou barras, setores (pizza), pictogramas ou cartogramas. Não existe regra para definição do tipo de gráfico a ser utilizado; porém, os gráficos de linhas ficam restritos para representar séries temporais ou evoluções históricas. Os gráficos de barras e colunas possuem a mesma finalidade diferindo-se somente na posição dos retângulos. Damos preferência para barras quando os dizeres ou nomes a serem representados são extensos. Nada impede, no entanto, que você prefira o gráfico de colunas, nesse caso, os nomes devem ser escritos de baixo para cima. Os gráficos de setores, também chamados de pizza, devem ser utilizados quando se deseja ressaltar a participação de segmentos em relação ao todo. É adequado quando representamos no máximo sete dados, um número maior polui o gráfico e dificulta sua leitura. Veja exemplos de gráficos de colunas, barras e pizza no seu material web. Os pictogramas são gráficos que utilizam desenhos no lugar das formas básicas para representar dados. Geralmente esses desenhos ilustram a natureza dos dados apresentados. Conheça um pictograma na seção Galeria, no ambiente web. Os cartogramas são gráficos que utilizam mapas cartográficos como base para a apresentação de dados. Servem somente a séries geográficas, uma vez que os dados apresentados são referentes a lugares (países, estados, cidades etc.). Saiba mais sobre gráficos na seção Amplie seus Conhecimentos. 3.2. Medidas de resumo São valores que buscam representar, resumir e caracterizar um conjunto de dados, facilitando a interpretação e comparação de um ou vários conjuntos. As medidas de resumo são separadas em: Medidas de posição: de tendência central (média, moda e mediana) ou separatrizes (quartil). Medidas de variabilidade: variância, desvio padrão e coeficiente de variação. Medidas de assimetria e curtose. 3.2.1. Medidas de posição As medidas de posição são assim chamadas pois se relacionam à posição de determinados valores no conjunto ordenado de dados. Entre as medidas de posição destacamos: · Tendência central: observadas no centro do conjunto ordenado, são elas: média, moda e mediana. · Medidas separatrizes: determinam valores que dividem o conjunto em partes iguais, os quartis, por exemplo, dividem o conjunto em quatro partes de mesmo tamanho. Média: É representada pelo símbolo x quando se refere a uma amostra; ou m (mi), quando se refere à população. É calculada pela razão entre o somatório de todos os dados observados e o número de dados (quantidade). Quando temos um rol ou acesso aos dados originais (não agrupados), é representada pela fórmula n x x å = , onde å x é o somatório de todos os valores observados e n é a quantidade de dados coletados. Observe: Exemplo 01 - Determine a média para o conjunto: 85, 82,97, 88, 89, 97, 89, 93, 88, 97, 96, 97, 98, 93, 97 4 , 92 15 1386 15 97 93 98 97 96 97 88 93 89 97 89 88 97 82 85 = = + + + + + + + + + + + + + + = ® = å x n x x Já para trabalharmos com dados de tabelas de distribuição, utilizaremos a média aritimética ponderada. Conheça as fórmulas: Cálculo da média em tabelas de distribuição de freqüência Sem intervalo de classe Com intervalo de classe n x f x å = . å x f . é o
Compartilhar