Prévia do material em texto
2014 Métodos Quantitativos Profª. Débora Cristina Brandt Copyright © UNIASSELVI 2014 Elaboração: Profª. Débora Cristina Brandt Revisão, Diagramação e Produção: Centro Universitário Leonardo da Vinci – UNIASSELVI Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri UNIASSELVI – Indaial. 657.42 B821m Brandt, Débora Cristina Métodos Quantitativos / Débora Cristina Brandt. Indaial : Uniasselvi, 2014. 171 p. : il ISBN 978-85-7830-836-0 1. Contabilidade de Custos. 2. Métodos Quantitativos. I. Centro Universitário Leonardo da Vinci. III apresentação Certa vez, um político britânico chamado Benjamin Disraeli disse que “existem três tipos de mentiras: mentiras, mentiras sujas e estatísticas”. Ele não estava de todo errado: vemos todos os dias, estatísticas mal feitas, com amostras não representativas ou análises erradas ou tendenciosas de dados. Mas a culpa não é da estatística, e sim, das pessoas que utilizam a ferramenta de maneira errada. Na verdade, a estatística é essencial para nossa vida. Fazemos uso dela todos os dias, quando pesquisamos o preço de uma mercadoria, inferimos de quanto será o aumento do aluguel, conjecturamos o comportamento da po- pulação nas urnas na próxima eleição. Seus conceitos já permeiam os mais diversos campos de conhecimento e são indispensáveis no campo científico e no mercado financeiro, por exemplo. Este Caderno de Estudos tem por objetivo lhe apresentar os conceitos iniciais da estatística, mais especificamente, da estatística descritiva. Espera- mos que, no fim desta disciplina, você seja capaz, não só de trabalhar com os conceitos apresentados, mas também esteja apto a questionar as pesquisas estatísticas que lhe são apresentadas das mais diferentes formas. Na Unidade 1 deste Caderno de Estudos, serão apresentadas algumas definições básicas sobre o assunto. Você aprenderá a diferença entre popula- ção e amostra, os diferentes tipos de amostra e as fases pelas quais uma pes- quisa estatística deve passar. Também compreenderá o conceito de variável estatística, suas subcategorias e como apresentá-las por meio de séries. A Unidade 2 é reservada para a apresentação de variáveis via distri- buição de frequência e por análises gráficas, desde gráficos de linhas até o complexo diagrama de caixas, ou box plot. Falaremos também sobre as medi- das resumo: média aritmética, moda, medianas e separatrizes, que estão rela- cionadas às medidas de posição; amplitude, variância amostral e populacio- nal, associadas às medidas de dispersão. Terminamos esta unidade falando sobre assimetria e curtose. Finalmente, na Unidade 3 trataremos da regressão linear e regressão linear múltipla, muito utilizadas para descrever o comportamento de uma vari- ável em função do comportamento de outra (ou de outras) variável (variáveis). Todas as unidades contêm exemplos e exercícios de fixação do conte- údo. Não deixe de resolvê-los: estatística, assim como qualquer outro ramo da matemática, só se aprende praticando. Esperamos que você aproveite ao máximo este material. E lembre-se de que você pode contar com uma grande equipe de apoio para lhe ajudá- -lo(a) no estudo da disciplina. Bom estudo! Professora Débora Cristina Brandt IV Você já me conhece das outras disciplinas? Não? É calouro? Enfim, tanto para você que está chegando agora à UNIASSELVI quanto para você que já é veterano, há novidades em nosso material. Na Educação a Distância, o livro impresso, entregue a todos os acadêmicos desde 2005, é o material base da disciplina. A partir de 2017, nossos livros estão de visual novo, com um formato mais prático, que cabe na bolsa e facilita a leitura. O conteúdo continua na íntegra, mas a estrutura interna foi aperfeiçoada com nova diagramação no texto, aproveitando ao máximo o espaço da página, o que também contribui para diminuir a extração de árvores para produção de folhas de papel, por exemplo. Assim, a UNIASSELVI, preocupando-se com o impacto de nossas ações sobre o ambiente, apresenta também este livro no formato digital. Assim, você, acadêmico, tem a possibilidade de estudá-lo com versatilidade nas telas do celular, tablet ou computador. Eu mesmo, UNI, ganhei um novo layout, você me verá frequentemente e surgirei para apresentar dicas de vídeos e outras fontes de conhecimento que complementam o assunto em questão. Todos esses ajustes foram pensados a partir de relatos que recebemos nas pesquisas institucionais sobre os materiais impressos, para que você, nossa maior prioridade, possa continuar seus estudos com um material de qualidade. Aproveito o momento para convidá-lo para um bate-papo sobre o Exame Nacional de Desempenho de Estudantes – ENADE. Bons estudos! UNI Olá acadêmico! Para melhorar a qualidade dos materiais ofertados a você e dinamizar ainda mais os seus estudos, a Uniasselvi disponibiliza materiais que possuem o código QR Code, que é um código que permite que você acesse um conteúdo interativo relacionado ao tema que você está estudando. Para utilizar essa ferramenta, acesse as lojas de aplicativos e baixe um leitor de QR Code. Depois, é só aproveitar mais essa facilidade para aprimorar seus estudos! UNI V VI VII suMário UNIDADE 1 - CONCEITOS INICIAIS .............................................................................................. 1 TÓPICO 1 - CONCEITOS BÁSICOS .................................................................................................. 3 1 INTRODUÇÃO .................................................................................................................................... 3 2 MÉTODO ESTATÍSTICO .................................................................................................................. 3 2.1 DEFINIÇÃO DO PROBLEMA ...................................................................................................... 3 2.2 DELIMITAÇÃO DO PROBLEMA ................................................................................................ 4 2.3 PLANEJAMENTO .......................................................................................................................... 4 2.4 COLETA DE DADOS ..................................................................................................................... 4 2.5 CRÍTICA DOS DADOS .................................................................................................................. 5 2.6 APURAÇÃO DOS DADOS ........................................................................................................... 5 2.7 APRESENTAÇÃO DOS DADOS .................................................................................................. 5 2.8 ANÁLISE DOS DADOS ................................................................................................................. 6 2.9 INTERPRETAÇÃO DOS DADOS ................................................................................................ 6 3 A ESTATÍSTICA COMO ÁREA DE ESTUDOS ............................................................................ 6 3.1 ESTATÍSTICA DESCRITIVA ......................................................................................................... 6 3.2 PROBABILIDADE .......................................................................................................................... 7 3.3 INFERÊNCIA ESTATÍSTICA ........................................................................................................ 7 RESUMO DO TÓPICO 1 ....................................................................................................................... 9 AUTOATIVIDADE ................................................................................................................................10 TÓPICO 2 - POPULAÇÃO E AMOSTRA .......................................................................................... 11 1 INTRODUÇÃO .................................................................................................................................... 11 2 POPULAÇÃO x AMOSTRA .............................................................................................................. 11 3 TIPOS DE AMOSTRA ........................................................................................................................ 13 3.1 AMOSTRAS ALEATÓRIAS SIMPLES ......................................................................................... 13 3.2 AMOSTRAS POR CONVENIÊNCIA ........................................................................................... 14 3.3 AMOSTRAS PONDERADAS ........................................................................................................ 15 3.4 AMOSTRAGEM ESTRATIFICADA ............................................................................................. 15 3.5 AMOSTRAGEM POR GRUPOS ................................................................................................... 16 4 ERROS E TENDENCIOSIDADE ...................................................................................................... 16 4.1 ERRO DE AMOSTRAGEM ........................................................................................................... 16 4.2 ERRO DE RESPOSTA ..................................................................................................................... 17 4.3 ERRO DE FALTA DE RESPOSTA ................................................................................................. 17 4.4 ERRO DE DELINEAMENTO ........................................................................................................ 18 RESUMO DO TÓPICO 2 ....................................................................................................................... 19 AUTOATIVIDADE ................................................................................................................................ 20 TÓPICO 3 - VARIÁVEIS ESTATÍSTICAS ......................................................................................... 23 1 INTRODUÇÃO .................................................................................................................................... 23 2 TIPOS DE VARIÁVEIS ...................................................................................................................... 23 2.1 VARIÁVEIS QUALITATIVAS ....................................................................................................... 24 2.2 VARIÁVEIS QUANTITATIVAS .................................................................................................... 25 3 ARREDONDAMENTO ...................................................................................................................... 26 VIII RESUMO DO TÓPICO 3 ....................................................................................................................... 28 AUTOATIVIDADE ................................................................................................................................ 29 TÓPICO 4 - SÉRIES ESTATÍSTICAS ................................................................................................. 31 1 INTRODUÇÃO .................................................................................................................................... 31 2 SÉRIES ESTATÍSTICAS SIMPLES .................................................................................................. 31 2.1 SÉRIES HISTÓRICAS OU TEMPORAIS ..................................................................................... 32 2.2 SÉRIES GEOGRÁFICAS OU TERRITORIAIS ............................................................................ 32 2.3 SÉRIES ESPECÍFICAS OU CATEGÓRICAS ............................................................................... 33 3 SÉRIES DE DUPLA ENTRADA OU SÉRIES MISTAS ................................................................ 33 4 CONSTRUÇÃO DE TABELAS ......................................................................................................... 34 4.1 TÍTULO ............................................................................................................................................ 34 4.2 CABEÇALHO .................................................................................................................................. 34 4.3 COLUNA INDICADORA ............................................................................................................. 34 4.4 CORPO ............................................................................................................................................. 34 4.5 TRAÇO ............................................................................................................................................. 35 4.6 FONTE, NOTAS E CHAMADA ................................................................................................... 35 LEITURA COMPLEMENTAR .............................................................................................................. 36 RESUMO DO TÓPICO 4 ....................................................................................................................... 39 AUTOATIVIDADE ................................................................................................................................ 40 UNIDADE 2 - APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO ..................................... 43 TÓPICO 1 - DISTRIBUIÇÃO DE FREQUÊNCIA ............................................................................ 45 1 INTRODUÇÃO .................................................................................................................................... 45 2 DISTRIBUIÇÃO DE FREQUÊNCIA ............................................................................................... 46 2.1 DADOS BRUTOS ............................................................................................................................ 50 2.2 ROL ................................................................................................................................................... 51 2.3 AMPLITUDE TOTAL OU RANGE (R) ........................................................................................ 51 2.4 DISTRIBUIÇÃO DE FREQUÊNCIA ............................................................................................ 51 2.5 NÚMERO DE CLASSES (K) .................................................................................................... 53 2.6 AMPLITUDE DAS CLASSES (h) .................................................................................................. 54 2.7 LIMITE DAS CLASSES .................................................................................................................. 55 RESUMO DO TÓPICO 1 ....................................................................................................................... 56 AUTOATIVIDADE ................................................................................................................................ 57 TÓPICO 2 - GRÁFICOS ESTATÍSTICOS .......................................................................................... 59 1 INTRODUÇÃO .................................................................................................................................... 59 2 TIPOS DE GRÁFICOS ........................................................................................................................ 60 2.1 GRÁFICO DE LINHA ....................................................................................................................60 2.2 GRÁFICO DE COLUNAS OU BARRAS ..................................................................................... 63 2.3 GRÁFICO DE SETORES ................................................................................................................ 66 2.4 OUTROS TIPOS DE GRÁFICOS .................................................................................................. 69 RESUMO DO TÓPICO 2 ....................................................................................................................... 71 AUTOATIVIDADE ................................................................................................................................ 72 TÓPICO 3 - MEDIDAS RESUMO – MEDIDAS DE POSIÇÃO .................................................... 75 1 INTRODUÇÃO .................................................................................................................................... 75 2 MEDIDAS DE POSIÇÃO ................................................................................................................... 75 2.1 MÉDIA ARITMÉTICA ................................................................................................................... 76 2.2 MODA .............................................................................................................................................. 80 2.3 MEDIANA ....................................................................................................................................... 84 2.4 SEPARATRIZES .............................................................................................................................. 90 IX 3 BOX PLOT OU DIAGRAMA DE CAIXAS .................................................................................... 95 RESUMO DO TÓPICO 3 ....................................................................................................................... 100 AUTOATIVIDADE ................................................................................................................................ 101 TÓPICO 4 - MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE ...................................... 103 1 INTRODUÇÃO .................................................................................................................................... 103 2 AMPLITUDE ......................................................................................................................................... 103 3 VARIÂNCIA E DESVIO-PADRÀO POPULACIONAL ............................................................... 105 4 VARIÂNCIA E DESVIO-PADRÀO AMOSTRAL ......................................................................... 108 5 ASSIMETRIA ........................................................................................................................................ 110 6 CURTOSE .............................................................................................................................................. 113 LEITURA COMPLEMENTAR .............................................................................................................. 114 RESUMO DO TÓPICO 4 ....................................................................................................................... 120 AUTOATIVIDADE ................................................................................................................................ 122 UNIDADE 3 - CORRELAÇÃO E REGRESSÃO LINEAR .............................................................. 125 TÓPICO 1 - CORRELAÇÃO ................................................................................................................. 127 1 INTRODUÇÃO .................................................................................................................................... 127 2 RELAÇÃO ENTRE VARIÁVEIS ....................................................................................................... 127 3 INDEPENDÊNCIA ENTRE VARIÁVEIS ....................................................................................... 130 4 A CORRELAÇÃO ................................................................................................................................ 133 4.1 DIAGRAMA DE DISPERSÃO ...................................................................................................... 133 4.2 COEFICIENTE DE CORRELAÇÃO ............................................................................................. 135 RESUMO DO TÓPICO 1 ....................................................................................................................... 140 AUTOATIVIDADE ................................................................................................................................ 141 TÓPICO 2 - REGRESSÃO LINEAR .................................................................................................... 145 1 INTRODUÇÃO .................................................................................................................................... 145 2 MÉTODO DOS MÍNIMOS QUADRADOS .................................................................................. 147 3 ANÁLISE DA REGRESSÃO LINEAR ............................................................................................. 151 3.1 INTERPOLAÇÃO E EXTRAPOLAÇÃO ..................................................................................... 152 3.2 COEFICIENTE DE DETERMINAÇÃO ....................................................................................... 154 RESUMO DO TÓPICO 2 ....................................................................................................................... 155 AUTOATIVIDADE ................................................................................................................................ 156 TÓPICO 3 - REGRESSÃO MÚLTIPLA .............................................................................................. 159 1 INTRODUÇÃO .................................................................................................................................... 159 2 O PLANO DE REGRESSÃO .............................................................................................................. 159 LEITURA COMPLEMENTAR .............................................................................................................. 164 RESUMO DO TÓPICO 3 ....................................................................................................................... 167 AUTOATIVIDADE ................................................................................................................................ 168 REFERÊNCIAS ........................................................................................................................................ 171 X 1 UNIDADE 1 CONCEITOS INICIAIS OBJETIVOS DE APRENDIZAGEM PLANO DE ESTUDOS Esta unidade tem por objetivos: • conhecer alguns conceitos básicos de estatística; • conceituar e diferenciar população e amostra; • classificar alguns tipos de amostra de acordo com suas características; • aprender a definição e a trabalhar com séries estatísticas; • entender como se dá o arredondamento de números decimais segundo as regras estabelecidas pela Associação Brasileira de Normas Técnicas – ABNT. A Unidade 1 está dividida em quatro tópicos, contendo exemplos e, no final de cada um deles, há exercícios para familiarizá-lo(a) com o assunto. TÓPICO 1 – CONCEITOS BÁSICOS TÓPICO 2 – POPULAÇÃO E AMOSTRA TÓPICO 3 – VARIÁVEIS ESTATÍSTICAS TÓPICO 4 – SÉRIES ESTATÍSTICAS Assista ao vídeo desta unidade. 2 3 TÓPICO 1 UNIDADE 1 CONCEITOS BÁSICOS 1 INTRODUÇÃO Estamos acostumados a ouvir e falar em estatística na nossa vida. Na verdade,boa parte das nossas decisões é baseada em pequenas pesquisas estatísticas que fazemos todos os dias. Por exemplo, quando avaliamos o preço de determinada mercadoria, a possibilidade do nosso time de futebol ganhar o campeonato, ou mesmo de chover no final de semana, mesmo que inconscientemente, estamos pesquisando, comparando e tirando conclusões com base nas informações de que dispomos. Em outras palavras, estamos fazendo uso de estatística, mesmo que de maneira displicente. Formalmente, Estatística é o “conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento”. (MAGALHÃES, 2010, 1). 2 MÉTODO ESTATÍSTICO Uma vez entendido o que é estatística, precisamos agora saber como trabalhar com ela. Para realizarmos uma pesquisa estatística, precisamos cumprir algumas etapas, que compõem o que chamamos de método estatístico. As principais fases do método estatístico, segundo Castanheira (2008, p. 15) são: “a definição do problema, a delimitação do problema, o planejamento, a coleta de dados, a crítica destes dados, a apuração, a apresentação, a análise e, por fim, a interpretação dos dados coletados”. Vamos entender cada uma destas etapas? 2.1 DEFINIÇÃO DO PROBLEMA O primeiro passo em uma pesquisa estatística é definir o problema, ou seja, estabelecer qual é a pergunta a que queremos responder. É com base nesta etapa que todas as outras serão cumpridas, daí a importância de se fazer a pergunta certa. UNIDADE 1 | CONCEITOS INICIAIS 4 FIGURA 1 – DEFINIÇÃO DO PROBLEMA ESTATÍSTICO FONTE: A autora 2.2 DELIMITAÇÃO DO PROBLEMA Estabelecida a pergunta (ou conjunto de perguntas) a que queremos responder, precisamos definir quem é o público-alvo da pesquisa, quem responderá as questões propostas (pessoas, coisas), onde este público será acessado (rua, laboratório, linha de produção, por exemplo). FIGURA 2 – DELIMITAÇÃO DO PROBLEMA ESTATÍSTICO FONTE: A autora 2.3 PLANEJAMENTO Uma vez já delimitado o problema, agora precisamos planejar de que maneira que responderemos às perguntas propostas. O planejamento é a etapa em que respondemos à pergunta ‘como faremos?’ De acordo com Castanheira (2008, p. 5), “às vezes, é suficiente a pura observação; no entanto, na maioria das ocasiões, é necessário elaborar um questionário ou um roteiro de entrevista”. Aqui entram as restrições orçamentárias, o cronograma de pesquisa e o recrutamento de pessoas para trabalhar no processo. FIGURA 3 – PLANEJAMENTO ESTATÍSTICO FONTE: A autora 2.4 COLETA DE DADOS A coleta de dados é o momento em que se obtêm os dados que irão responder à pergunta que estipulamos. Definição do problema O quê? Delimitação do Problema Quem? Planejamento Como? TÓPICO 1 | CONCEITOS BÁSICOS 5 Existem duas maneiras de obtenção de dados: a coleta direta e a indireta. A coleta de dados direta é aquela obtida diretamente, seja por meio de aplicação de questionários, por observação ou por meio da busca direta em registros oficiais. A outra maneira de obtenção de dados é a indireta, quando se utiliza de dados obtidos por coleta direta para outro fim. Os dados em si também podem ser divididos em duas categorias: os dados primários, que são aqueles obtidos diretamente por meio de um questionário, tomada de tempo ou preço, por exemplo, e os dados secundários, que são os obtidos através de pesquisa em outros dados, previamente coletados, como dados oficiais, outras pesquisas científicas. Se saber é poder, o conhecimento das possíveis fontes de dados secundários é uma porta de entrada para tal poder. Esse conhecimento permite tomar decisão de forma rápida, barata e mais bem informada. [...] Ainda, se estão disponíveis dados secundários adequados, você pode economizar a coleta dispendiosa de dados primários. No entanto, quando você usa dados secundários, as definições, a finalidade, a cobertura, a frequência e a exatidão [...] podem ser inadequados para seus objetivos, porque foram delineados com propósito genérico ou diferente do seu. (SILVER, 2000, p. 23). Entende-se por dados um conjunto de valores numéricos ou não. 2.5 CRÍTICA DOS DADOS Os dados já foram coletados. Agora é necessário avaliar se eles estão de acordo com os objetivos traçados no planejamento, se há falhas ou erros que possam influenciar no resultado final. 2.6 APURAÇÃO DOS DADOS Nesta etapa, os dados obtidos na coleta são tabulados: os dados semelhantes são agrupados, de acordo com o tipo de resposta fornecido, por exemplo. 2.7 APRESENTAÇÃO DOS DADOS Nesta etapa são construídas as tabelas ou gráficos para que se consiga extrair informações a respeito dos dados apurados. UNI UNIDADE 1 | CONCEITOS INICIAIS 6 2.8 ANÁLISE DOS DADOS Com base na apresentação dos dados, é nessa fase que podemos tirar conclusões a respeito do objetivo da pesquisa. Alguns cálculos matemáticos que estudaremos mais à frente auxiliam nesta tarefa. 2.9 INTERPRETAÇÃO DOS DADOS Feita a análise, a última fase do método corresponde à interpretação dos dados obtidos. Nesta etapa podem ser feitas previsões a respeito do comportamento futuro dos dados, ou mesmo uma extrapolação de conclusões (se o objetivo inicial era conhecer a durabilidade média das lâmpadas fabricadas por uma indústria, ALGUMAS lâmpadas são testadas e, com base na durabilidade destas lâmpadas, define-se a durabilidade de TODAS as lâmpadas). É importante salientar que qualquer conclusão tirada da interpretação de dados está sujeita a certo grau de incerteza. 3 A ESTATÍSTICA COMO ÁREA DE ESTUDOS Durante certo tempo, a estatística foi considerada uma área de estudos da matemática aplicada. Devido à importância da área e as suas características, hoje ela própria é considerada uma área de estudos e existem vários cursos de graduação em Estatística pelo país. A estatística como área de estudos pode ser dividida em três subáreas: • Estatística descritiva. • Probabilidade. • Inferência estatística. Em geral, uma pesquisa estatística envolve as três áreas. Vamos definir e entender qual é o papel de cada uma delas. 3.1 ESTATÍSTICA DESCRITIVA A estatística descritiva trabalha com dados observados. Normalmente, ela é utilizada em uma primeira etapa da pesquisa, e é responsável por resumir as informações de interesse a partir do que foi coletado. Não há espaço para dúvidas na estatística descritiva, ela simplesmente apresenta o que é. EXEMPLO 1: Um investidor está interessado em saber quanto rendeu determinada ação no mercado no último mês. Então ele toma o rendimento da ação em todos os dias do mês em questão e, a partir disso, conclui quanto a ação TÓPICO 1 | CONCEITOS BÁSICOS 7 rendeu. Esta informação não dá espaço para dúvidas, uma vez que está baseada em fatos. EXEMPLO 2: Uma pesquisa de opinião sobre um desodorante ouviu 100 consumidores. Várias perguntas foram feitas sobre a embalagem, a fragrância, a textura, o preço e a eficácia do produto. Com base nestes dados, chegou-se à conclusão que 30% dos entrevistados estava satisfeita com o produto, 10% muito satisfeita, 40% estava indiferente e 20% estava insatisfeita. Essas informações foram obtidas pela Estatística Descritiva e só dizem respeito aos 100 consumidores consultados. É a estatística descritiva que iremos estudar neste curso. 3.2 PROBABILIDADE Segundo Magalhães (2010, p. 2), a “Probabilidade pode ser pensada como a teoria matemática utilizada para se estudar a incerteza oriunda de fenômenos aleatórios”, ou seja, sobre fenômenos sobre os quais não temos certeza. EXEMPLO 1: A previsão do tempo para a próxima segunda-feira é um fenômeno aleatório, pois não temos como prever o tempo. Neste caso, com base em comportamentos já conhecidos, estipula-seuma probabilidade de ocorrência de chuva, por exemplo. Mas nada garante que vá chover! EXEMPLO 2: Ao lançarmos um dado correto, não viciado, sabemos que a probabilidade de sair um três é de uma em seis, visto que o dado tem seis faces e em apenas uma aparece o três. Note que isto não significa que, se lançarmos o dado seis vezes, de fato, apareça o três uma única vez. Por outro lado, se lançarmos o dado 6000 vezes, é provável que em torno de 1000 vezes vá aparecer o três. A probabilidade é uma área bastante matemática e rica, envolvendo Teoria dos Conjuntos. 3.3 INFERÊNCIA ESTATÍSTICA A inferência estatística é responsável por extrapolar para um conjunto grande de dados os valores obtidos para um conjunto muito menor. Ela surge da incapacidade de se trabalhar com todos os dados de interesse: neste caso, escolhe- se um subconjunto menor destes dados, estuda-se este subconjunto e, através da inferência, obtêm-se conclusões sobre o conjunto inteiro. EXEMPLO: Voltemos à pesquisa de opinião sobre o desodorante, em que foram ouvidos 100 consumidores. Com base nos resultados obtidos, aplicam-se técnicas de inferência estatística para prever a opinião de todos os consumidores do desodorante. UNIDADE 1 | CONCEITOS INICIAIS 8 A figura a seguir relaciona algumas das fases do método estatístico com os três ramos mencionados. FIGURA 4 – FASES DO MÉTODO ESTATÍSTICO FONTE: A autora 9 Neste tópico, conhecemos um pouco a estatística, mais precisamente, vimos que: • Estatística é o “conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento”. (MAGALHÃES, 2010, p. 1). • As principais fases do método estatístico são: a definição do problema, a delimitação do problema, o planejamento, a coleta de dados, a crítica destes dados, a apuração, a apresentação, a análise e, por fim, a interpretação dos dados coletados. • A estatística como área de estudos pode ser dividida em três subáreas: estatística descritiva, probabilidade e inferência estatística. • As fases de coleta, crítica, apuração, apresentação e análise de dados correspondem à estatística descritiva; já a fase de interpretação é associada à probabilidade e a inferência estatística. • A interpretação dos dados estatísticos sempre envolve certo grau de incerteza. RESUMO DO TÓPICO 1 10 Vamos fixar os conteúdos vistos neste tópico, resolvendo alguns exercícios. Analise as sentenças a seguir e classifique V para as verdadeiras ou F para as falsas. a) ( ) Quando falamos em pesquisa estatística, estamos nos referindo necessariamente à aplicação de questionários para pessoas responderem. b) ( ) A estatística descritiva é o cálculo de medidas que permite descrever, com detalhes, o fenômeno que está sendo analisado (CASTANHEIRA, 2008). c) ( ) A definição do problema pode ser redefinida após a coleta e apuração dos dados, caso as informações obtidas caminhem em outra direção do que a inicialmente delimitada. d) ( ) Sempre que possível, devemos trabalhar com dados primários, isto é, obtidos por meio de coleta direta: eles se adequam melhor ao objetivo da pesquisa. e) ( ) Dados são informações que podem ser coletadas de diversas maneiras diferentes como, por exemplo, fichas médicas, registros oficiais, questionários e exames laboratoriais. AUTOATIVIDADE 11 TÓPICO 2 POPULAÇÃO E AMOSTRA UNIDADE 1 1 INTRODUÇÃO Imagine que uma pequena fábrica de biscoitos mudou a fórmula de seu produto e quer fazer uma pesquisa de opinião para saber o que os consumidores acharam da mudança. Para isso, é elaborado um questionário a ser aplicado durante certo período. Algumas questões que se põem são: de que forma este questionário será aplicado? Como alcançar os consumidores do produto? A maneira mais abrangente seria aplicá-lo na saída de todos os pontos de venda do biscoito. Desta maneira, todos os consumidores seriam consultados e a empresa saberia exatamente o que as pessoas pensaram da mudança. Claramente, esta abordagem seria bastante cara e demorada. Muitas pessoas precisariam ser contratadas e treinadas para abranger todos os pontos de venda. Outra possibilidade seria, através de um conjunto de critérios, a empresa escolher alguns pontos de venda e, nestes pontos, alguns consumidores. Se a escolha for bem feita, mesmo a empresa tendo acesso a algumas opiniões, o resultado final da pesquisa será muito similar ao obtido pela primeira maneira, embora o custo envolvido no processo seja muito menor. O exemplo anterior ilustra a diferença entre os conceitos de população e amostra, que veremos detalhadamente a seguir. 2 POPULAÇÃO x AMOSTRA No exemplo anterior, vimos duas maneiras de realizar uma mesma pesquisa: a primeira abrangeria todos os envolvidos, ou seja, toda a população de consumidores do biscoito. A segunda abordagem envolveria apenas uma amostra da população de consumidores. Formalmente, “população é uma coleção inteira de objetos ou resultados sobre os quais uma informação é obtida”, enquanto “amostra é um subconjunto de uma população que contém os objetos ou resultados que são realmente observados” (NAVIDI, 2012, p. 3). O ato de escolher a amostra é chamado de amostragem. UNIDADE 1 | CONCEITOS INICIAIS 12 FIGURA 5 – POPULAÇÃO E AMOSTRA FONTE: A autora Note que, apesar de utilizarmos a palavra população, ela não necessariamente se refere a pessoas. A população pode ser toda a população de uma cidade, mas também podem ser todos os produtos de uma fábrica produzidos em determinado período, todo o sangue de uma pessoa, certo tipo de bactérias, as árvores de uma floresta ou a água de um rio. População: É o conjunto composto de todos os elementos de uma pesquisa. A população pode ser: Finita: quando possui um número finito de elementos. Infinita: quando apresenta um número infinito de elementos. Em geral, fatores econômicos impossibilitam estudar toda a população (lembra nosso exemplo da fábrica de biscoitos?), mas fatores éticos ou um curto prazo de tempo também podem ser determinantes. Ainda há casos em que simplesmente não há como trabalhar com toda a população de interesse: como analisaríamos todo o sangue de uma pessoa para detectar a presença de certa doença? Como coletaríamos toda a água de um rio para analisar a quantidade de poluentes? Nestes casos, faz-se necessário trabalhar com amostras. Agora que a diferença entre amostra e população foi posta, outra pergunta surge: como escolher a amostra? Queremos que os resultados obtidos ao trabalharmos com a amostra sejam os mesmos que obteríamos se trabalhássemos com a população, e, portanto, precisamos garantir que a amostra seja escolhida de forma que replique o comportamento da população. Por exemplo, suponhamos UNI TÓPICO 2 | POPULAÇÃO E AMOSTRA 13 que queremos analisar a quantidade de poluentes em determinado rio. O censo comum nos diz que, se coletarmos água perto da saída de esgoto de uma fábrica será diferente do que se coletarmos água na foz do rio, ou mesmo no delta deste rio; numa campanha eleitoral, imagina-se que a intenção de voto dos eleitores que frequentam determinado shopping de luxo será diferente dos eleitores que frequentam a feira municipal. Como então escolher os elementos da amostra? Amostra: é um subconjunto da população. “N” – Tamanho da população. “n” – Tamanho da amostra. 3 TIPOS DE AMOSTRA A diferença entre os tipos de população já nos dá uma ideia de que há diferentes tipos de amostra. As características da população-alvo, muitas vezes, nos indicarão qual é a melhor maneira de obter a amostra, mas outros fatores também podem nos ajudar. Por exemplo, suponhamos que estejamos interessados em estudar a população de São Paulo. Sabe-seque a zona Sul da cidade é mais populosa do que a Zona Oeste ou mesmo a Zona Norte, assim seria sensato levar este fato em consideração ao escolher os elementos que irão compor a amostra. Vamos a seguir apresentar alguns tipos de amostra e ilustrá-los por meio de exemplos. 3.1 AMOSTRAS ALEATÓRIAS SIMPLES A amostragem aleatória simples é a mais usada. Formalmente, “uma amostra aleatória simples de tamanho n é uma amostra escolhida por algum método no qual cada coleção de n itens da população é igualmente provável de compor a amostra, da mesma forma como em uma loteria”. (NAVIDI, 2012, p. 3). Assim, cada elemento da população tem a mesma probabilidade de estar na amostra. Há várias maneiras de obter uma amostra aleatória simples. UNI UNI UNIDADE 1 | CONCEITOS INICIAIS 14 EXEMPLO 1: Em uma cidade com 250.000 habitantes, queremos saber a opinião a respeito da administração municipal. Para montar uma amostra aleatória simples de tamanho 200, vamos considerar a lista telefônica e escolher aleatoriamente 200 nomes. EXEMPLO 2: Em uma sala de aula de cursinho com 150 alunos, pretende- se saber quantos prestarão vestibular para a área das humanas. Para compor uma amostra com 30 estudantes, escolhe-se o primeiro, conta-se 50 estudantes e toma- se o 51º como segundo elemento da amostra; conta-se 50 estudantes a partir deste e toma-se o 51º como terceiro elemento da amostra e assim por diante. EXEMPLO 3: Para testar a durabilidade das lâmpadas fabricadas por uma indústria, escolhe-se um dia útil ao acaso e toma-se uma lâmpada de cada máquina em cada hora de produção deste dia. 3.2 AMOSTRAS POR CONVENIÊNCIA Algumas vezes, não é possível obter uma amostra por um método aleatório bem definido e é preciso utilizar uma amostra conveniente. Vamos entender este conceito por meio de alguns exemplos. EXEMPLO 1: Ao se retirar sangue de uma pessoa para detectar a presença de eventual vírus, normalmente, coleta-se uma amostra de sangue do braço do paciente. Quando não é possível, tenta-se coletar da mão, e assim por diante. EXEMPLO 2: Acaba de chegar um carregamento de tijolos em uma construção e o engenheiro quer saber se toda a carga de tijolos está de acordo com a especificação. Ele terá bastante dificuldade para acessar os tijolos que estão por baixo das pilhas. Então, escolherá alguns do topo das pilhas mais à frente para compor sua amostra. FIGURA 6 - AMOSTRA POR CONVENIÊNCIA FONTE: A autora TÓPICO 2 | POPULAÇÃO E AMOSTRA 15 3.3 AMOSTRAS PONDERADAS As amostras ponderadas levam em conta que certos indivíduos têm maior chance de fazerem parte de uma amostra do que outros. EXEMPLO 1: Uma revista sobre carros quer saber o que as pessoas levam em conta na hora de escolher o carro que irão comprar. Sabe-se que os homens e as mulheres têm opiniões distintas, logo a pesquisa deve levar isto em conta na hora do levantamento de dados. EXEMPLO 2: Uma pesquisa realizada em um parque municipal durante uma semana deve levar em conta que alguns indivíduos frequentam o parque diariamente, enquanto outros, apenas nos fins de semana. Assim, os frequentadores assíduos têm maior chance de serem escolhidos para compor a amostra. 3.4 AMOSTRAGEM ESTRATIFICADA A amostra estratificada implica dividir a população em estratos, isto é, conjuntos menores, de modo que, se escolhermos um representante da população, ele está em um conjunto, e apenas neste conjunto. Assim, ao invés de trabalhar com a população, trabalhamos com estes conjuntos, tomando uma amostra aleatória simples em cada um deles. EXEMPLO 1: Uma pesquisa sobre o serviço prestado pela companhia responsável pelo recolhimento do lixo de uma cidade deverá levar em conta os habitantes da zona rural e da zona urbana. Como a frequência com que o recolhimento do lixo ocorre nestas duas áreas pode ser diferente, é aconselhável dividir em dois estratos (zona urbana e zona rural) e estudá-los de maneira isolada. A opinião geral da população será obtida juntando as informações dos dois estratos. EXEMPLO 2: Suponha que um instituto de pesquisa esteja interessado na intenção de voto para Presidente da República do Brasil. Então o instituto considera separadamente as cinco regiões do país (Sul, Sudeste, Centro-Oeste, Nordeste e Norte) e, em cada região, compõe uma amostra com seus habitantes. Desta forma, além de obter um resultado global, pode comparar o comportamento dos votos nas diferentes regiões. Note que, para que seja composta uma amostra estratificada, é preciso ter um conhecimento prévio da população: no exemplo anterior, sabe-se de antemão que o país é dividido em cinco regiões diferentes. UNIDADE 1 | CONCEITOS INICIAIS 16 3.5 AMOSTRAGEM POR GRUPOS A amostragem por grupos ocorre quando a população a ser estudada é muito grande. Neste caso, classifica-se a amostra em grupos escolhidos aleatoriamente, e se escolhem alguns deles para trabalhar. Na verdade, estes grupos serão estudados cada um como se fosse a própria população. EXEMPLO 1: Geólogos estão interessados em estudar a composição do solo em determinada região. Para isso, delimitam uma área escolhida aleatoriamente (grupo da amostra) e, nesta área, realizam suas pesquisas. Mais à frente, uma nova área (grupo da amostra) é delimitada. EXEMPLO 2: Geneticistas estudam a reação de certo tipo de bactéria a uma nova droga. Note que é impossível que eles tenham acesso a toda a população de bactérias! Então, selecionam uma cultura de bactérias para servir de amostra. 4 ERROS E TENDENCIOSIDADE Com base nos tipos e particularidades de cada amostra, você deve ter percebido que uma amostra mal escolhida pode acarretar em erros na pesquisa. Por exemplo, se uma pesquisa avalia a opinião pública sobre a administração municipal sem levar em conta a distribuição demográfica da cidade, ou os diferentes bairros, pode-se chegar a uma conclusão totalmente parcial. Mas existem outros tipos de erros que podem ocorrer em uma pesquisa estatística: além do erro de amostragem, segundo Silver (2000), podem ocorrer erros de respostas, erros de falta de resposta e erros de delineamento. Vamos a seguir caracterizar cada um destes tipos de erros. 4.1 ERRO DE AMOSTRAGEM Conforme vimos anteriormente, muitas vezes, torna-se impossível trabalhar com a população inteira para realizar uma pesquisa estatística, optando- se por trabalhar com amostras. O erro de amostragem surge quando o tamanho da amostra é muito pequeno em relação ao tamanho a população. EXEMPLO: Suponhamos que estivéssemos interessados em estudar a frequência com que a população de determinado estado consome bebidas alcoólicas. Se perguntarmos para duas pessoas se elas consumiram bebida alcoólica na última semana e elas responderem que sim, poderíamos ser levados a concluir que a população inteira teve o mesmo comportamento. Se a amostra fosse composta por cinco pessoas, três respondessem não, e duas respondessem sim, concluiríamos que a população não consumiu bebida alcoólica na última semana. Entretanto, essa conclusão seria correta? Uma amostra de cinco pessoas teria como representar a população de um estado inteiro? TÓPICO 2 | POPULAÇÃO E AMOSTRA 17 Normalmente, quanto maior for a amostra, mais representativa ela é, ou seja, o comportamento da amostra fica mais próximo do comportamento da população. Isso não significa que ele será igual, mas é possível definir um erro máximo que será cometido: quanto maior o tamanho da amostra, menor o erro. Assim, uma tarefa importante é definir o tamanho mínimo da amostra, de maneira a reduzir a possibilidade de cometer erros de amostragem. Existem várias maneiras de determinar o tamanho ideal da amostra, com base no erro máximo que se deseja cometer. Não vamos entrar no mérito, mas você pode encontrar uma equação para o cálculo deste erro em Silver(2000). 4.2 ERRO DE RESPOSTA O erro de resposta é a diferença entre a resposta dada e a resposta verdadeira. Este erro é comum quando a população da pesquisa é composta por pessoas. EXEMPLO 1: Uma empresa faz uma pesquisa sobre o desempenho da chefia de um setor. Para isso, pergunta aos funcionários subordinados ao setor sua opinião. Como saber se a resposta que será dada é de fato a resposta verdadeira? EXEMPLO 2: O questionário socioeconômico de uma escola pergunta qual é a renda média da família do estudante, em salários mínimos. Muitas famílias podem responder receber valores menores aos de fato recebidos para ter acesso a bolsas de estudos, enquanto outras podem ficar constrangidas e dão valores superiores aos reais. Como controlar este tipo de erro? Há várias maneiras de se verificar a ocorrência destes erros. Uma maneira é fazer a mesma pergunta de maneiras diferentes ao longo do questionário, pegando discrepâncias de informação. A maneira de elaborar a pergunta também pode minimizar o risco de informações erradas ou imprecisas. Ainda é possível entrevistar mais de uma vez a mesma pessoa, por pesquisadores diferentes, com abordagens diferentes. 4.3 ERRO DE FALTA DE RESPOSTA O erro de falta de resposta surge da negativa do entrevistado em dar sua opinião. UNI UNIDADE 1 | CONCEITOS INICIAIS 18 EXEMPLO: Quando os meios de comunicação divulgam os resultados das pesquisas de intenção de voto, sempre informam o percentual de pessoas que não quiseram opinar sobre o assunto. Este tipo de erro é difícil de ser medido, porque muitas vezes, o número de pessoas que não quiseram opinar simplesmente não é levado em conta. No caso do exemplo anterior, suponha que os entrevistadores tenham tentado coletar a opinião dos entrevistados na rua. Muitas pessoas podem simplesmente tê-los ignorado e, neste caso, o entrevistador ter buscado outras pessoas para perguntar. Quando os resultados finais forem levados em conta, o número de pessoas que não quiseram opinar pode ser pequeno, simplesmente porque parte delas foi ignorada na contagem. 4.4 ERRO DE DELINEAMENTO O erro de delineamento surge quando o grupo que compõe a amostra não representa a população. Em outras palavras, o erro de delineamento surge da má escolha do tipo de amostra a ser considerada para determinada população. EXEMPLO: Uma escola está interessada em saber quantos de seus alunos fumam ou já fumaram. Como a escola tem muitos estudantes, é escolhida a sala do primeiro ano do ensino médio para representar a escola. Obviamente, o resultado da pesquisa será tendencioso, pois prioriza apenas uma faixa etária. 19 RESUMO DO TÓPICO 2 Neste tópico estudamos as diferenças entre população e amostra. Mais precisamente, vimos que: • População é formada pelo conjunto de dados sobre os quais queremos extrair alguma informação. • Amostra é uma parte representativa da população. • Amostragem é o ato de compor uma amostra. • Há várias possibilidades de escolher uma amostra, entre elas, a amostragem aleatória simples, amostragem ponderada, amostragem estratificada, amostragem por grupo. • Toda pesquisa estatística está sujeita a alguns erros: erro de amostragem, erro de delineamento, erro de resposta e erro de falta de resposta. 20 Para testar seus conhecimentos, resolva os exercícios a seguir: 1 Analise as situações a seguir e indique quem compõe a população e, quando for o caso, a amostra. a) A Polícia Rodoviária Federal quer divulgar o total de acidentes com vítimas nas rodovias federais no último feriado. Para isso, coleta o número de chamados atendidos pelas suas guaritas para este tipo de ocorrência. b) Uma fábrica de refrigerantes quer medir a variação na quantidade de líquido em suas garrafas de 300 ml. Para isso, coleta uma garrafa de cada caixa produzida em um dia de trabalho. c) O Estado de Santa Catarina quer saber a eficácia da última campanha de vacinação contra a paralisia. Para isso realiza uma pesquisa com as mães de crianças que procuram o posto de saúde em determinado período. d) Um administrador quer estudar o rendimento das ações de certa companhia no último mês. Para isso, considera os dados de fechamento destas ações no período. 2 Analise as situações a seguir e indique qual é o tipo de amostragem considerado. a) Astrônomos querem estudar a composição do solo de Marte. Para isso, coletam uma amostra do solo por meio da sonda espacial. b) Professores de um cursinho querem saber quais os cursos que serão mais procurados pelos estudantes de terceiro ano do ensino médio de sua cidade. Para isso, sorteiam algumas escolas, escolhem uma turma de cada uma destas escolas por turno e para realizam um questionário com todos os alunos. c) Um jornal percebeu uma queda no número de assinantes no último ano. Para verificar a causa, considerou a lista de antigos clientes em ordem alfabética e escolheu aleatoriamente 50 nomes nesta lista, e realizou ligações telefônicas perguntando o motivo da não renovação da assinatura. d) Uma academia de ginástica quer oferecer uma nova modalidade de atividade de física, mas não sabe bem ao certo qual. Então, escolheu aleatoriamente alguns de seus clientes. Como 70% dos frequentadores são mulheres, levou esta proporção em consideração na hora de compor sua amostra. e) O governo quer saber qual é a renda per capita média da população brasileira para saber em quais setores deve oferecer subsídios. Como suspeita de que há diferenças consideráveis em relação aonde a população mora, resolve tomar amostras contemplando todos os estados, e levando este fato em consideração. 3 Analise e indique a que tipo de erro as situações a seguir estão propensas. a) Uma montadora de automóveis quer saber quais são os itens, que não são de série, mais valorizados na hora da compra. Para isso, escolhe os clientes que adquiram seus automóveis nos meses de maio e junho e realiza via telefone um questionário. AUTOATIVIDADE 21 b) A mesma montadora quer saber o nível de satisfação dos clientes com o pós venda de suas lojas. Para isso, seleciona clientes que vêm às concessionárias para a revisão do veículo durante um ano e aplica um questionário. c) Um laboratório quer testar uma nova vacina em animais. Para isso considera uma amostra de 16 ratos doentes, aplica a vacina contendo o medicamento em metade deles, aplica uma solução de soro fisiológico na outra metade e observa a evolução da doença. d) Uma rede de supermercado quer dimensionar o nível de satisfação dos clientes que fazem uso do serviço de entrega oferecido pela rede. Para isso, escolhe no seu cadastro 30 clientes e realiza um questionário por telefone. 22 23 TÓPICO 3 VARIÁVEIS ESTATÍSTICAS UNIDADE 1 1 INTRODUÇÃO Quando queremos extrair certas informações por meio de uma pesquisa estatística, elaboramos perguntas que podem nos fornecer dados a respeito destas informações. A estes dados de interesse, damos o nome de variáveis. Assim, variáveis são as características que queremos observar ou medir em cada pesquisa (MAGALHÃES, 2010). EXEMPLO: Uma empresa está interessada em pesquisar a aceitação dos consumidores em relação a um novo tipo de biscoito. As variáveis desta pesquisa podem ser sabor, textura, aparência, apresentação, preço, facilidade em encontrar etc. Note a diferença entre os conceitos de variáveis e dados. Enquanto variáveis são as características que queremos observar, os dados são as respostas para estas informações. As variáveis a serem estudadas precisam ser pertinentes, estarem relacionadas com o fenômeno que queremos investigar. Assim, dependendo da natureza da variável, os dados obtidos em uma pesquisa podem ser numéricos ou não. Essas diferenças entre a natureza das variáveis é importante, pois ela vai nos dizer a maneira maiseficiente de tratá-las e apresentá-las. Assim, é importante conhecermos os diferentes tipos de variáveis que podemos nos deparar. 2 TIPOS DE VARIÁVEIS Suponhamos que a prefeitura de uma cidade queira conhecer o perfil dos frequentadores de um parque municipal. Para isso, elabora um questionário extenso, que pergunta, entre outras questões, o gênero e a idade do entrevistado. Para gênero, é esperada uma resposta do tipo feminino ou masculino; já para idade, espera-se como resposta um número inteiro, entre 12 e 90 anos. Dependendo da natureza da variável, UNI 24 UNIDADE 1 | CONCEITOS INICIAIS ela é classificada como qualitativa ou como quantitativa. Vamos a seguir trabalhar um pouco esses conceitos e estabelecer as diferenças entre eles. 2.1 VARIÁVEIS QUALITATIVAS Dizemos que uma variável é qualitativa quando diz respeito a uma qualidade, e geralmente resultam de uma classificação. EXEMPLO 1: O gênero informado na pesquisa sobre os frequentadores do parque é uma variável qualitativa, pois cada entrevistado será classificado como “masculino” ou “feminino”. EXEMPLO 2: Uma empresa quer ajudar a custear um curso de capacitação para os seus funcionários, mas primeiro, para estudar a viabilidade do projeto, precisa estabelecer o nível de escolaridade predominante entre os trabalhadores. Assim, os funcionários serão classificados como possuindo nível fundamental de escolaridade, médio ou superior. Outra maneira de avaliar poderia ser considerada: a empresa poderia simplesmente separá-los entre aptos a fazerem o curso e não aptos. Ambas as variáveis propostas são variáveis qualitativas. Note que, mesmo entre as variáveis qualitativas, há diferenças. Por exemplo, entre aptos e não aptos, não há uma ordem, assim como quando a pergunta é o gênero. Já quando a questão é a escolaridade, há uma ordem intrínseca: se o candidato tem nível médio de escolarização, ele também tem o fundamental; se o funcionário tem nível superior, ele também tem o fundamental e o médio. Assim, existem dois tipos de variáveis qualitativas: a. Variável qualitativa nominal: quando não há uma ordem na classificação. b. Variável qualitativa ordinal: quando há ordem envolvida, há uma classificação. EXEMPLOS: Cor dos olhos, raça, gênero, preferência entre gêneros de filmes são exemplos de variáveis qualitativas nominais. Nível de escolaridade, classificação em uma prova, ordem de chegada em uma corrida, conceito em uma prova (A, B, C) são exemplos de variáveis qualitativas ordinais. Ordenar é diferente de codificar! Assim, se a variável gênero aceita 1 para feminino e 2 para masculino, embora os dados sejam numéricos, a variável continua sendo qualitativa. ATENCAO TÓPICO 3 | VARIÁVEIS ESTATÍSTICAS 25 As variáveis qualitativas não podem ser expressas numericamente, são definidas através de categorias. 2.2 VARIÁVEIS QUANTITATIVAS As variáveis quantitativas resultam de uma contagem ou mensuração. São exemplos desse tipo de variável peso, altura, idade, tamanho, preço entre outros. Assim como no caso das quantitativas, elas também podem ser classificadas em dois grupos distintos: as variáveis quantitativas contínuas e as variáveis quantitativas discretas. a. Variável quantitativa contínua: quando qualquer valor dentro de um intervalo numérico é esperado. b. Variável quantitativa discreta: apenas valores fixos são esperados como resposta, valores provenientes de uma contagem. Vamos entender melhor a diferença entre esses dois conceitos por meio de um exemplo. EXEMPLO: Suponhamos que uma assistente social esteja interessada no perfil das grávidas que procuram o posto de saúde de uma comunidade. Entre as variáveis de interesse estão idade, peso adquirido nos primeiros meses de gestação e renda familiar em salários mínimos, todas variáveis quantitativas. Para ter acesso a estas informações, a assistente social utiliza as fichas cadastrais e médicas das gestantes existentes no posto. Obviamente, ela não espera que, em relação à idade, alguém tenha informado que possui 20,3 anos: é esperado que as respostas sejam números inteiros, 20, 21, 31 40 anos. Já em relação ao peso, se a assistente utilizar as fichas médicas das pacientes para obter essa informação, encontrará valores dos mais diversos: 4,2 kg, 1 kg, 3,72 kg. Assim, a idade caracteriza uma variável quantitativa discreta, enquanto o peso é uma variável quantitativa contínua. E a renda familiar? Aí depende como ela se apresenta (por quê?). Esse exemplo ilustra uma importante característica das variáveis: a classificação depende da maneira como os dados são coletados. Uma variável quantitativa pode ser discreta sob uma perspectiva e contínua sobre a outra. ATENCAO 26 UNIDADE 1 | CONCEITOS INICIAIS A classificação das variáveis não é estática. Às vezes, uma variável contínua pode ser tratada como discreta, dependendo da particularidade da pesquisa. Por exemplo, a variável ‘peso’, em uma determinada pesquisa, pode ser tratada como variável discreta. 3 ARREDONDAMENTO Aproveitaremos este tópico, em que apresentamos o conceito de variáveis para tratar de um importante item: o arredondamento numérico. É preciso tomar certos cuidados ao se trabalhar com variáveis quantitativas contínuas, pois frequentemente, precisamos definir com quantas casas decimais iremos trabalhar, uma vez que este tipo de variável pode assumir qualquer valor numérico. Essa decisão precisa ser tomada para que os dados fiquem organizados e padronizados, garantindo assim melhor apresentação. Vamos entender como proceder através de um exemplo. Suponhamos que em uma relação de dados relativos à determinada variável, apareceram os seguintes valores: 5,21 4,13 5,124 2,12 3,156 4,02 2,1 3,92 2,95 2,65 4,21 5 4,21 2,155 3,04 2,125 4,08 5,02 Note que a maioria dos números possui duas casas decimais após a vírgula. Para padronizar os dados, vamos considerar então todos os números desta forma, com dois algarismos depois da vírgula. Os números que possuem menos de dois algarismos facilmente se enquadram neste novo formato: basta acrescentar zeros. Assim, 2,1 torna-se 2,10 e 5 torna-se 5,00. A questão que se põe agora é com o proceder com os números que possuem mais de dois algarismos depois da vírgula. Nas regras de arredondamento utilizadas em estatística, matemática financeira, entre outras situações ligadas a números, são utilizadas algumas regras conforme segue: Ø Se o algarismo a ser eliminado for maior ou igual a cinco, acrescentamos uma unidade ao primeiro algarismo que está situado à sua esquerda. Ø Se o algarismo a ser eliminado for menor que cinco, devemos manter inalterado o algarismo da esquerda. Exemplos: a) 7,347 -> o número a ser eliminado será o 7 e é maior que cinco, logo, adicionamos à casa da esquerda uma unidade, dessa forma o número passará a ser escrito da seguinte maneira: 7,35 b) 8,272 -> o número a ser eliminado será o 2 e é menor que cinco, logo não devemos modificar o numeral da esquerda, dessa forma o número deverá ser escrito da seguinte maneira: 8,27 UNI TÓPICO 3 | VARIÁVEIS ESTATÍSTICAS 27 Nos casos em que o algarismo a ser descartado for 5 temos algumas peculiaridades conforme segue: Ø Se o algarismo a ser eliminado for 5 e houver algarismos após dele, acrescenta- se uma unidade à casa da esquerda, por exemplo: 3,2356842 -> 3,24 0,2750123 -> 0,28 Ø Se o algarismo a ser eliminado for 5 e não houver algarismos após, é necessário verificar o algarismo anterior, se for: a) Par, não devemos modificar o numeral da esquerda. Exemplo: 0,265 -> 0,26 1,745 -> 1,74 b) Ímpar, adicionamos à casa da esquerda uma unidade. Exemplo: 1,215 -> 1,22 0,375 -> 0,38 Aqui entram as regras estabelecidas pela Associação Brasileira de Normas Técnicas – ABNT (NBR 5891 de 1977). Para arredondar númerosnesta situação, olhamos o algarismo que vamos arredondar: se ele for par, deixamos tudo como está, mas se ele for ímpar, acrescentamos uma unidade. 28 RESUMO DO TÓPICO 3 Neste tópico, estudamos as variáveis estatísticas e como elas se relacionam com os dados estatísticos. Mais precisamente, vimos que: • Enquanto dados são valores numéricos ou não associados a uma pesquisa estatística, chamamos de variáveis aos dados de interesse. • As variáveis podem ser classificadas em variáveis qualitativas (quando envolvem uma qualidade ou classificação) e variáveis quantitativas (variáveis numéricas). • As variáveis qualitativas se subdividem em: • Variáveis qualitativas ordinais são as variáveis onde há uma classificação envolvendo uma ordem. • Variáveis qualitativas nominais são as variáveis onde há uma classificação ou qualidade sem envolver ordem. • As variáveis quantitativas se subdividem em: • Variáveis quantitativas contínuas são as variáveis numéricas que podem assumir qualquer valor dentro de um intervalo. • Variáveis quantitativas discretas são variáveis numéricas que podem assumir apenas alguns números pré-estabelecidos. • Quando precisamos arredondar um dado numérico, observamos as regras de arredondamento segundo a ABNT. 29 Para testar seus conhecimentos, resolva os exercícios a seguir: 1 Classifique as variáveis a seguir como variáveis qualitativas (nominais ou ordinais) ou quantitativas (discretas ou contínuas), lembrando que esta classificação depende do contexto do problema. a) Em uma pesquisa, pede-se para o entrevistado escrever o algarismo 1 em um campo caso seja do sexo masculino e 2 caso seja do sexo feminino. b) Um laboratório está testando um novo material para sacolas plásticas biodegradáveis, e está medindo a quantidade de tempo que ele leva para se desintegrar completamente no meio ambiente. c) Após inúmeras denúncias, a fiscalização municipal está medindo o tempo médio de espera entre um ônibus e outro de determinada linha. d) Uma pesquisa sobre saúde pública pergunta se a pessoa é fumante ou não e, se for, quantos cigarros fuma por dia. e) O PROCON está de olho na alta de preços do material escolar. Para isso, está fazendo uma pesquisa na cidade, comparando os preços de lápis, caneta, borracha e cadernos nos estabelecimentos comerciais de uma cidade. f) A organização de uma maratona quer medir a quantidade de peso perdida pelos atletas no decorrer da prova. Para isso, realiza uma medição no início e no fim da prova, e classifica a perda de peso como leve, moderada ou forte ao final. g) Uma loja de departamento quer saber o grau de satisfação dos seus clientes com o atendimento recebido. Para isso estabelece um critério de satisfação, que varia de 1 a 5, sendo 1 totalmente insatisfeito e 5 totalmente satisfeito. 2 Arredonde os números a seguir para duas casas decimais depois da vírgula, segundo as regras estabelecidas pela ABNT: a) 203,1 b) 444,444 c) 592,55 d) 5,456 e) 78,885 f) 85,1150 g) 101,144 h) 54,165 i) 45,1651 j) 56 3 Repita o exercício anterior, considerando 3 casas decimais depois da vírgula: a) 0,0000002 b) 10,000009 c) 10000 d) 103,3465 e) 45,5555 AUTOATIVIDADE 30 f) 45,555 g) 45,55555 h) 12,5551 i) 13,3091 j) 14,0009 31 TÓPICO 4 SÉRIES ESTATÍSTICAS UNIDADE 1 1 INTRODUÇÃO No Tópico 1 deste Caderno de Estudos, vimos que a coleta, crítica, apuração e apresentação dos dados faziam parte do método estatístico. Uma vez coletados e criticados, era na apuração que os dados eram tabulados, de acordo com suas similaridades. Na verdade é na apuração que separamos os dados de acordo com a variável a que dizem respeito. A partir desta classificação é feita a apresentação destes dados, por meio de tabelas ou gráficos. Neste tópico começaremos a discutir as formas de apresentação dos dados, mais precisamente, a apresentação de dados por meio de tabelas estatísticas. Mas o que é uma tabela estatística? De acordo com Oliveira (2010, p. 13), as tabelas estatísticas, ou séries estatísticas, “podem ser definidas como conjuntos de dados estatísticos, associados a um fenômeno, dispostos numa ordem de classificação”. Essa classificação deve levar em conta o fenômeno descrito (variável), onde ele foi observado e a época a que ele se refere. São as possíveis combinações entre estas classificações que possibilitam dividir as tabelas estatísticas em três tipos: tabelas estatísticas simples, tabelas de dupla entrada ou tabelas de frequências. Neste tópico trataremos dos dois primeiros tipos de tabela: as tabelas de distribuição de frequência e os gráficos serão assunto na Unidade 2. 2 SÉRIES ESTATÍSTICAS SIMPLES As séries estatísticas simples são aquelas compostas por apenas duas colunas: uma destinada às categorias possíveis da variável, e a outra, aos dados propriamente ditos. De acordo com a variável abordada podem ser classificadas como séries históricas, geográficas ou específicas. Vamos tratar de cada uma delas a seguir. 32 UNIDADE 1 | CONCEITOS INICIAIS 2.1 SÉRIES HISTÓRICAS OU TEMPORAIS Como o próprio nome sugere são aquelas onde a variável apresentada é o tempo, enquanto o local e o fato observado permanecem fixos. Vamos dar alguns exemplos: TABELA 1 – EXEMPLO DE SÉRIE HISTÓRICA MATRÍCULAS NO ENSINO FUNDAMENTAL NA ESCOLA X – 2010-2013 Ano Número de matrículas 2010 654 2011 691 2012 703 2013 761 FONTE: A autora TABELA 2 – SEGUNDO EXEMPLO DE SÉRIE HISTÓRICA EXTENSÃO DA REDE RODOVIÁRIA BRASILEIRA PAVIMENTADA – 1987-1992 Ano Extensão (km) 1987 128.206 1988 133.623 1989 136.647 1990 139.353 1991 139.415 1992 143.247 FONTE: Oliveira (2010) 2.2 SÉRIES GEOGRÁFICAS OU TERRITORIAIS As séries geográficas são aquelas em que a variável é o local onde o fenômeno é observado, enquanto o tempo e o fato observado permanecem fixos. TÓPICO 4 | SÉRIES ESTATÍSTICAS 33 TABELA 3 – PRIMEIRO EXEMPLO DE SÉRIE GEOMÉTRICA PESSOAS COM MAIS DE 15 ANOS EM ESTADOS PRÉ-SELECIONADOS – 2008 Ano Número de pessoas Amazonas 2.279.811 Paraíba 2.823.492 São Paulo 31.825.460 Rio Grande do Sul 8.397.355 Mato Grosso 2.266.442 Distrito Federal 1.931.019 FONTE: IBGE (1993) 2.3 SÉRIES ESPECÍFICAS OU CATEGÓRICAS As séries específicas ou categóricas são aquelas em que a variável é o fato observado, enquanto o tempo e o local onde o fenômeno é observado permanecem fixos. TABELA 4 – EXEMPLO DE SÉRIE ESPECÍFICA EXTENSÃO DA MALHA RODOVIÁRIA BRASILEIRA POR ÓRGÃO DE ADMINISTRAÇÃO – 2013 Órgão Extensão (km) Municipal 175.822,19 Estadual 22.101,62 Federal 1.055,82 FONTE: DER. Disponível em: <http://www.der.sp.gov.br/website/Malha/malha_ extensao.aspx>. Acesso em: 30 jan. 2014. 3 SÉRIES DE DUPLA ENTRADA OU SÉRIES MISTAS Às vezes é interessante levar em conta mais de uma variável na tabela: neste caso, temos as séries de dupla entrada. 34 UNIDADE 1 | CONCEITOS INICIAIS TABELA 5 – EXEMPLO DE TABELA DE DUPLA ENTRADA TAXA DE MORTALIDADE INFANTIL, SEGUNDO AS GRANDES REGIÕES DO BRASIL – 1970-1990 Ano Taxa de mortalidade infantil (%) Brasil Norte Nordeste Sudeste Sul Centro-Oeste 1970 115,0 104,3 146,4 96,2 81,9 89,7 1975 100,0 94,0 128,0 86,0 72,0 77,0 1980 82,8 79,4 117,6 57,0 58,9 69,6 1985 62,9 60,8 93,6 42,6 39,5 47,1 1990 48,3 44,6 74,3 33,6 27,4 31,2 FONTE: IBGE. Disponível em: <http://www.ibge.gov.br/home/estatistica/populacao/evolucao_ perspectivas_mortalidade/evolucao_mortalidade.pdf>. Acesso em: 30 jan. 2014. 4 CONSTRUÇÃO DE TABELAS Você deve ter notado que as séries estatísticas obedecem a um padrão de construção. Toda a tabela estatística deve ser composta por alguns elementos, que iremos mencionar a seguir. 4.1 TÍTULO Toda tabela deve conter um título sucinto na primeiralinha, explicando do que trata a variável, onde foi realizada, e quando (a data ou ano) foi realizada a pesquisa. 4.2 CABEÇALHO O cabeçalho é a parte superior da tabela e nos diz o que a coluna indicadora e o corpo da tabela contêm. 4.3 COLUNA INDICADORA A coluna indicadora corresponde à primeira coluna, onde é especificado o conteúdo das linhas da tabela. 4.4 CORPO O corpo da tabela é o “conjunto de linhas e colunas que contém as informações sobre a variável em estudo”. (CRESPO, 2008, p. 17). Ela é composta por linhas, colunas e células ou casas. TÓPICO 4 | SÉRIES ESTATÍSTICAS 35 4.5 TRAÇO Segundo Oliveira (2010, p. 20), “o traço é o que delimita o cabeçalho, as linhas e as colunas de uma tabela”. 4.6 FONTE, NOTAS E CHAMADA A fonte, as notas e as chamadas são informações que se localizam logo abaixo do corpo da tabela. A fonte é a indicação das entidades responsáveis pelo fornecimento ou elaboração das informações contidas na tabela, e deve estar imediatamente abaixo do corpo da tabela. As notas são informações adicionais gerais que foram julgadas importantes para esclarecer fatos ou descrever a metodologia adotada na coleta dos dados e, caso apareçam, devem estar imediatamente abaixo da fonte. Por fim, chamadas referem-se a informações específicas sobre determinada parte da tabela e, caso apareçam, devem estar abaixo das notas. Se você quiser saber mais sobre as regras de tabulação, indicamos o livro Estatística: uma nova abordagem, de Oliveira presente em nossas referências. Existem muitos livros que tratam da utilização da estatística no dia a dia e da importância em interpretar as informações da melhor maneira possível. Um livro que faz a ponte entre a estatística e o cálculo de risco é o livro Desafio aos Deuses, de Peter L. Bernstein. Fica a dica de leitura! Na Unidade 2 daremos continuidade ao estudo relativo à apresentação de dados, trabalhando com as tabelas de distribuição de frequência e gráficos estatísticos. UNI UNI 36 UNIDADE 1 | CONCEITOS INICIAIS LEITURA COMPLEMENTAR Especialistas ensinam como interpretar as estatísticas de saúde Roberta Jansesn RIO – Digite a palavra câncer no Google News – a ferramenta de busca de notícias do site – e, em menos de um segundo, você obterá nada menos que 38.212 resultados. São reportagens sobre a doença escritas nos mais diferentes países do mundo. Baseadas na crescente produção científica mundial, as informações chegam com cada vez mais frequência aos leigos. Alguns estudos são reconfortantes; outros, esperançosos. Muitos são educativos, divulgam informações importantes sobre prevenção e tratamentos. Mas alguns podem ser muito alarmistas e gerar confusão. Principalmente aqueles baseados em números, estatísticas e percentuais de risco. “A incidência de câncer de bexiga entre pessoas com menos de 30 anos aumentou 120% nos últimos dez anos”, sustenta uma manchete do tabloide britânico “Daily Mail”. Ou, no mesmo jornal, “Mulheres que usam talco todo dia têm o risco de desenvolver câncer de ovário em 40%”. O levantamento das notícias foi feito por Marianne Freiberger e Rachel Thomas, editoras da revista on-line de matemática Plus (plus.maths.org), da Universidade de Cambridge, que escreveram um artigo sobre o tema para a “Newscientist”. Números, argumentam as especialistas, em geral, agradam às pessoas. “Eles falam de fatos e certezas e da marcha da ciência. Se conseguimos colocar um número em um problema, sua extensão é conhecida e seu impacto pode ser circunscrito”, escrevem. No entanto, as sólidas certezas que costumam emanar dos números são, com frequência, ilusórias. Estatísticas, como se sabe, podem ser facilmente manipuladas. Na maioria das vezes, com boas intenções, como dar mais ênfase a um determinado tópico ou chamar atenção a um problema grave. Outras vezes, podem cair na mão de pessoas inescrupulosas ou, simplesmente, serem mal interpretadas. 25 em 100 ou 250 em mil? Na área da saúde, segundo Freiberger e Thomas, isso ocorre com mais frequência do que em outras áreas. E a explicação é simples: não é tão fácil assim, por exemplo, determinar os riscos ambientais a que uma pessoa está submetida. Saber O texto a seguir fala da necessidade de termos cuidado ao interpretar informações estatísticas a que temos acesso diariamente. Você já deve ter percebido, ao longo deste capítulo, tabelas envolvendo porcentagens, onde a soma de todas elas está acima de 100%, ou mesmo onde uma das porcentagens é 100%. Como exemplo, citamos a Tabela 5 denominada Exemplo de Tabela de Dupla Entrada, que tratava do índice de mortalidade. Se o índice, em 1975 era de 100%, como existem pessoas que nasceram no Brasil naquele ano? Será que o IBGE errou a respeito dos dados? Leia o texto a seguir e tire suas próprias conclusões a respeito. TÓPICO 4 | SÉRIES ESTATÍSTICAS 37 exatamente que fatores podem deflagrar o desenvolvimento de um tipo específico de tumor. Determinar como exatamente uma substância age na prevenção. E mais: pessoas reagem de forma diferente aos mesmos agentes. Resumindo, a saúde está longe de ser uma ciência exata. As especialistas destacaram alguns exemplos. “O que te deixaria mais alarmado? Ler que o câncer mata 25 em 100 pessoas ou 250 em mil?” É a mesma coisa, lógico. Mas não exatamente. O cérebro humano registra com mais facilidade números maiores, números redondos: 250 tenderá sempre aparecer mais grave do que 25, como explica a gerente da Divisão de Informação em Câncer e Análise da Situação do Instituto Nacional do Câncer (Inca), Marise Rebelo, responsável pela elaboração de dados sobre a doença. – É possível criar um impacto maior ou menor, dependendo da magnitude do número que se usa – explica Marise. – Se quero causar um impacto grande, vou optar pelo número maior. O que fica para o leitor ou o telespectador é o número que está no denominador. Não se trata, necessariamente, de sensacionalismo. – Veja, tive o cuidado de não usar este termo – afirma a especialista brasileira. – Depende do veículo. Numa revista, a pessoa abre, lê, volta ao início, lê novamente. Na televisão, não tem isso: a coisa é dita uma única vez. Se quisermos criar um impacto, é preciso saber que número usar. Por exemplo, é melhor dizer que o atendimento nas Upas caiu pela metade ou em 50% do que dizer que foi reduzido de 20 para 10, não? A mensagem é mais direta. Mas a mesma estratégia pode ser usada com má fé. É o caso, por exemplo, do shampoo que exibe na embalagem a frase: 80% das mulheres que testaram o produto disseram que seus cabelos ficaram mais macios e brilhantes. Essas alegações são comuns na propaganda, mas algumas vezes podem esconder o fato de que apenas quatro pessoas fizeram o teste, por exemplo. O risco aumenta em 20% e é de 6% “Comer bacon todos os dias aumenta em 20% o risco de se desenvolver câncer de bexiga”, aponta um grande estudo realizado no Reino Unido, financiado pelo Fundo de Pesquisa de Câncer. Não se trata de questionar a veracidade do estudo, feito por cientistas sérios e organizações de peso. Os números, muito provavelmente, estão corretos. Os números, atenção, mostram o quanto o risco de alguém desenvolver um determinado tipo de câncer aumentaria em função da adoção de um hábito alimentar específico. Vale lembrar que o risco de alguém, na população em geral, sofrer de câncer de bexiga é de 5%. Portanto, um “aumento de 20% no risco” significa que o risco absoluto de se ter a doença passa para 6% entre os fãs de bacon. Não que isso seja desprezível em se tratando de uma doença grave. 38 UNIDADE 1 | CONCEITOS INICIAIS – O risco de adoecer por câncer é baixo, são de 2 a 3 novos casos a cada mil habitantes por ano – explica o coordenador de Ações Estratégicas do Inca, Cláudio Noronha, responsável por campanhas de prevenção e educação. – Mas isso