Prévia do material em texto
MÉTODOS QUANTITATIVOS Caderno de Estudos Profª. Débora Cristina Brandt Editora UNIASSELVI 2014 NEAD Educação a Distância GRUPO Copyright Editora UNIASSELVI 2014 Elaboração: Profª. Débora Cristina Brandt Revisão, Diagramação e Produção: Centro Universitário Leonardo da Vinci - UNIASSELVI Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri Grupo UNIASSELVI – Indaial. 657.42 B821m Brandt, Débora Cristina Métodos Quantitativos / Débora Cristina Brandt. Indaial : Uniasselvi, 2014. 171 p. : il ISBN 978-85-7830-847-6 1. Contabilidade de Custos. 2. Métodos Quantitativos. I. Centro Universitário Leonardo da Vinci. MÉTODOS QUANTITATIVOS APRESENTAÇÃO Certa vez, um político britânico chamado Benjamin Disraeli disse que “existem três tipos de mentiras: mentiras, mentiras sujas e estatísticas”. Ele não estava de todo errado: vemos todos os dias, estatísticas mal feitas, com amostras não representativas ou análises erradas ou tendenciosas de dados. Mas a culpa não é da estatística, e sim, das pessoas que utilizam a ferramenta de maneira errada. Na verdade, a estatística é essencial para nossa vida. Fazemos uso dela todos os dias, quando pesquisamos o preço de uma mercadoria, inferimos de quanto será o aumento do aluguel, conjecturamos o comportamento da população nas urnas na próxima eleição. Seus conceitos já permeiam os mais diversos campos de conhecimento e são indispensáveis no campo científico e no mercado financeiro, por exemplo. Este Caderno de Estudos tem por objetivo lhe apresentar os conceitos iniciais da estatística, mais especificamente, da estatística descritiva. Esperamos que, no fim desta disciplina, você seja capaz, não só de trabalhar com os conceitos apresentados, mas também esteja apto a questionar as pesquisas estatísticas que lhe são apresentadas das mais diferentes formas. Na Unidade 1 deste Caderno de Estudos, serão apresentadas algumas definições básicas sobre o assunto. Você aprenderá a diferença entre população e amostra, os diferentes tipos de amostra e as fases pelas quais uma pesquisa estatística deve passar. Também compreenderá o conceito de variável estatística, suas subcategorias e como apresentá-las por meio de séries. A Unidade 2 é reservada para a apresentação de variáveis via distribuição de frequência e por análises gráficas, desde gráficos de linhas até o complexo diagrama de caixas, ou box plot. Falaremos também sobre as medidas resumo: média aritmética, moda, medianas e separatrizes, que estão relacionadas às medidas de posição; amplitude, variância amostral e populacional, associadas às medidas de dispersão. Terminamos esta unidade falando sobre assimetria e curtose. Finalmente, na Unidade 3 trataremos da regressão linear e regressão linear múltipla, muito utilizadas para descrever o comportamento de uma variável em função do comportamento de outra (ou de outras) variável (variáveis). Todas as unidades contêm exemplos e exercícios de fixação do conteúdo. Não deixe de resolvê-los: estatística, assim como qualquer outro ramo da matemática, só se aprende praticando. Esperamos que você aproveite ao máximo este material. E lembre-se de que você pode contar com uma grande equipe de apoio para lhe ajudá-lo(a) no estudo da disciplina. Bom estudo! Professora Débora Cristina Brandt iii MÉTODOS QUANTITATIVOS iv UNI Oi!! Eu sou o UNI, você já me conhece das outras disciplinas. Estarei com você ao longo deste caderno. Acompanharei os seus estudos e, sempre que precisar, farei algumas observações. Desejo a você excelentes estudos! UNI SUMÁRIO UNIDADE 1 – CONCEITOS INICIAIS ............................................................................... 1 TÓPICO 1 – CONCEITOS BÁSICOS ............................................................................... 3 1 INTRODUÇÃO ............................................................................................................... 3 2 MÉTODO ESTATÍSTICO ................................................................................................. 3 2.1 DEFINIÇÃO DO PROBLEMA ...................................................................................... 4 2.2 DELIMITAÇÃO DO PROBLEMA ................................................................................. 4 2.3 PLANEJAMENTO ........................................................................................................ 4 2.4 COLETA DE DADOS ................................................................................................... 5 2.5 CRÍTICA DOS DADOS ................................................................................................ 5 2.6 APURAÇÃO DOS DADOS .......................................................................................... 6 2.7 APRESENTAÇÃO DOS DADOS ................................................................................. 6 2.8 ANÁLISE DOS DADOS ............................................................................................... 6 2.9 INTERPRETAÇÃO DOS DADOS ................................................................................ 6 3 A ESTATÍSTICA COMO ÁREA DE ESTUDOS .............................................................. 6 3.1 ESTATÍSTICA DESCRITIVA ........................................................................................ 7 3.2 PROBABILIDADE ........................................................................................................ 7 3.3 INFERÊNCIA ESTATÍSTICA ....................................................................................... 8 RESUMO DO TÓPICO 1 ................................................................................................... 9 AUTOATIVIDADE ........................................................................................................... 10 TÓPICO 2 – POPULAÇÃO E AMOSTRA ....................................................................... 11 1 INTRODUÇÃO .............................................................................................................. 11 2 POPULAÇÃO x AMOSTRA .......................................................................................... 11 3 TIPOS DE AMOSTRA .................................................................................................. 13 3.1 AMOSTRAS ALEATÓRIAS SIMPLES ....................................................................... 13 3.2 AMOSTRAS POR CONVENIÊNCIA .......................................................................... 14 3.3 AMOSTRAS PONDERADAS .................................................................................... 15 3.4 AMOSTRAGEM ESTRATIFICADA ............................................................................ 16 3.5 AMOSTRAGEM POR GRUPOS ............................................................................... 17 4 ERROS E TENDENCIOSIDADE .................................................................................. 18 4.1 ERRO DE AMOSTRAGEM ....................................................................................... 18 4.2 ERRO DE RESPOSTA .............................................................................................. 19 4.3 ERRO DE FALTA DE RESPOSTA ............................................................................. 20 4.4 ERRO DE DELINEAMENTO ..................................................................................... 20 RESUMO DO TÓPICO 2 ................................................................................................. 21 AUTOATIVIDADE ........................................................................................................... 22 TÓPICO 3 – VARIÁVEIS ESTATÍSTICAS ......................................................................25 1 INTRODUÇÃO ............................................................................................................. 25 2 TIPOS DE VARIÁVEIS ................................................................................................. 26 MÉTODOS QUANTITATIVOS v MÉTODOS QUANTITATIVOS vi 2.1 VARIÁVEIS QUALITATIVAS ...................................................................................... 26 2.2 VARIÁVEIS QUANTITATIVAS ................................................................................... 27 3 ARREDONDAMENTO ................................................................................................. 28 RESUMO DO TÓPICO 3 ................................................................................................. 32 AUTOATIVIDADE ........................................................................................................... 33 TÓPICO 4 – SÉRIES ESTATÍSTICAS ............................................................................ 35 1 INTRODUÇÃO ............................................................................................................. 35 2 SÉRIES ESTATÍSTICAS SIMPLES ............................................................................. 35 2.1 SÉRIES HISTÓRICAS OU TEMPORAIS .................................................................. 36 2.2 SÉRIES GEOGRÁFICAS OU TERRITORIAIS ......................................................... 36 2.3 SÉRIES ESPECÍFICAS OU CATEGÓRICAS ........................................................... 37 3 SÉRIES DE DUPLA ENTRADA OU SÉRIES MISTAS ................................................ 37 4 CONSTRUÇÃO DE TABELAS .................................................................................... 38 4.1 TÍTULO ...................................................................................................................... 38 4.2 CABEÇALHO ............................................................................................................ 38 4.3 COLUNA INDICADORA ............................................................................................ 38 4.4 CORPO ..................................................................................................................... 39 4.5 TRAÇO ...................................................................................................................... 39 4.6 FONTE, NOTAS E CHAMADA .................................................................................. 39 LEITURA COMPLEMENTAR .......................................................................................... 41 RESUMO DO TÓPICO 4 ................................................................................................. 44 AUTOATIVIDADE ........................................................................................................... 45 AVALIAÇÃO .................................................................................................................... 47 UNIDADE 2 – APRESENTAÇÃO DE DADOS E MEDIDAS RESUMO .......................... 49 TÓPICO 1 – DISTRIBUIÇÃO DE FREQUÊNCIA ........................................................... 51 1 INTRODUÇÃO ............................................................................................................. 51 2 DISTRIBUIÇÃO DE FREQUÊNCIA ............................................................................. 52 3 INTERVALOS DE CLASSE ......................................................................................... 56 RESUMO DO TÓPICO 1 ................................................................................................. 60 AUTOATIVIDADE ........................................................................................................... 61 TÓPICO 2 – GRÁFICOS ESTATÍSTICOS ...................................................................... 63 1 INTRODUÇÃO ............................................................................................................. 63 2 TIPOS DE GRÁFICOS ................................................................................................. 65 2.1 GRÁFICO DE LINHA ................................................................................................. 65 2.2 GRÁFICO DE COLUNAS OU BARRAS .................................................................... 68 2.3 GRÁFICO DE SETORES .......................................................................................... 70 2.4 OUTROS TIPOS DE GRÁFICOS .............................................................................. 73 RESUMO DO TÓPICO 2 ................................................................................................. 76 AUTOATIVIDADE ........................................................................................................... 77 MÉTODOS QUANTITATIVOS vii TÓPICO 3 – MEDIDAS RESUMO – MEDIDAS DE POSIÇÃO ...................................... 79 1 INTRODUÇÃO ............................................................................................................. 79 2 MEDIDAS DE POSIÇÃO ............................................................................................. 79 2.1 MÉDIA ARITMÉTICA ................................................................................................. 80 2.2 MODA ........................................................................................................................ 83 2.3 MEDIANA .................................................................................................................. 84 2.4 SEPARATRIZES ........................................................................................................ 89 3 BOX PLOT OU DIAGRAMA DE CAIXAS .................................................................. 95 RESUMO DO TÓPICO 3 ............................................................................................... 100 AUTOATIVIDADE ......................................................................................................... 101 TÓPICO 4 – MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE ....................... 103 1 INTRODUÇÃO ........................................................................................................... 103 2 AMPLITUDE ............................................................................................................... 103 3 VARIÂNCIA E DESVIO-PADRÀO POPULACIONAL ................................................ 105 4 VARIÂNCIA E DESVIO-PADRÀO AMOSTRAL ........................................................ 107 5 ASSIMETRIA .............................................................................................................. 109 6 CURTOSE ................................................................................................................... 112 LEITURA COMPLEMENTAR ......................................................................................... 114 RESUMO DO TÓPICO 4 ................................................................................................ 119 AUTOATIVIDADE ......................................................................................................... 120 AVALIAÇÃO .................................................................................................................. 122 UNIDADE 3 – CORRELAÇÃO E REGRESSÃO LINEAR ............................................ 123 TÓPICO 1 – CORRELAÇÃO ........................................................................................ 125 1 INTRODUÇÃO ........................................................................................................... 125 2 RELAÇÃO ENTRE VARIÁVEIS ................................................................................ 125 3 INDEPENDÊNCIA ENTRE VARIÁVEIS .....................................................................128 4 A CORRELAÇÃO ...................................................................................................... 131 4.1 DIAGRAMA DE DISPERSÃO .................................................................................. 131 4.2 COEFICIENTE DE CORRELAÇÃO ........................................................................ 133 RESUMO DO TÓPICO 1 ............................................................................................... 138 AUTOATIVIDADE ......................................................................................................... 139 TÓPICO 2 – REGRESSÃO LINEAR ............................................................................ 143 1 INTRODUÇÃO ........................................................................................................... 143 2 MÉTODO DOS MÍNIMOS QUADRADOS .................................................................. 146 3 ANÁLISE DA REGRESSÃO LINEAR ....................................................................... 150 3.1 INTERPOLAÇÃO E EXTRAPOLAÇÃO ................................................................... 151 3.2 COEFICIENTE DE DETERMINAÇÃO .................................................................... 153 RESUMO DO TÓPICO 2 ............................................................................................... 154 AUTOATIVIDADE ......................................................................................................... 155 MÉTODOS QUANTITATIVOS viii TÓPICO 3 – REGRESSÃO MÚLTIPLA ........................................................................ 159 1 INTRODUÇÃO ........................................................................................................... 159 2 O PLANO DE REGRESSÃO ..................................................................................... 159 LEITURA COMPLEMENTAR ........................................................................................ 163 RESUMO DO TÓPICO 3 ............................................................................................... 166 AUTOATIVIDADE ......................................................................................................... 167 AVALIAÇÃO .................................................................................................................. 169 REFERÊNCIAS ............................................................................................................. 171 M É T O D O S Q U A N T I T A T I V O S UNIDADE 1 CONCEITOS INICIAIS ObjETIvOS DE AprENDIzAgEm Nesta unidade vamos: conhecer alguns conceitos básicos de estatística; conceituar e diferenciar população e amostra; classificar alguns tipos de amostra de acordo com suas características; aprender a definição e a trabalhar com séries estatísticas; entender como se dá o arredondamento de números decimais segundo as regras estabelecidas pela Associação Brasileira de Normas Técnicas – ABNT. TÓPICO 1 – CONCEITOS BÁSICOS TÓPICO 2 – POPULAÇÃO E AMOSTRA TÓPICO 3 – VARIÁVEIS ESTATÍSTICAS TÓPICO 4 – SÉRIES ESTATÍSTICAS pLANO DE ESTUDOS A Unidade 1 está dividida em quatro tópicos, contendo exemplos e, no final de cada um deles, há exercícios para familiarizá- lo(a) com o assunto. M É T O D O S Q U A N T I T A T I V O S M É T O D O S Q U A N T I T A T I V O S CONCEITOS BÁSICOS 1 INTRODUÇÃO TÓPICO 1 Estamos acostumados a ouvir e falar em estatística na nossa vida. Na verdade, boa parte das nossas decisões é baseada em pequenas pesquisas estatísticas que fazemos todos os dias. Por exemplo, quando avaliamos o preço de determinada mercadoria, a possibilidade do nosso time de futebol ganhar o campeonato, ou mesmo de chover no final de semana, mesmo que inconscientemente, estamos pesquisando, comparando e tirando conclusões com base nas informações de que dispomos. Em outras palavras, estamos fazendo uso de estatística, mesmo que de maneira displicente. Formalmente, Estatística é o “conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento”. (MAGALHÃES, 2010, 1). UNIDADE 1 UNI Entende-se por dados um conjunto de valores numéricos ou não. 2 MÉTODO ESTATÍSTICO Uma vez entendido o que é estatística, precisamos agora saber como trabalhar com ela. Para realizarmos uma pesquisa estatística, precisamos cumprir algumas etapas, que compõem o que chamamos de método estatístico. As principais fases do método estatístico, segundo Castanheira (2008, p. 15) são: “a definição do problema, a delimitação do problema, o planejamento, a coleta de dados, a crítica destes dados, a apuração, a apresentação, a análise e, por fim, a interpretação dos dados coletados”. UNIDADE 1TÓPICO 14 M É T O D O S Q U A N T I T A T I V O S Vamos entender cada uma destas etapas? 2.1 DEFINIÇÃO DO PROBLEMA O primeiro passo em uma pesquisa estatística é definir o problema, ou seja, estabelecer qual é a pergunta a que queremos responder. É com base nesta etapa que todas as outras serão cumpridas, daí a importância de se fazer a pergunta certa. FIGURA 1 – DEFINIÇÃO DO PROBLEMA ESTATÍSTICO FONTE: A autora. 2.2 DELIMITAÇÃO DO PROBLEMA Estabelecida a pergunta (ou conjunto de perguntas) a que queremos responder, precisamos definir quem é o público-alvo da pesquisa, quem responderá as questões propostas (pessoas, coisas), onde este público será acessado (rua, laboratório, linha de produção, por exemplo). FIGURA 2 – DELIMITAÇÃO DO PROBLEMA ESTATÍSTICO FONTE: A autora. 2.3 PLANEJAMENTO Uma vez já delimitado o problema, agora precisamos planejar de que maneira que responderemos às perguntas propostas. O planejamento é a etapa em que respondemos à pergunta ‘como faremos?’ De acordo com Castanheira (2008, p. 5), “às vezes, é suficiente a pura observação; no entanto, na maioria das ocasiões, é necessário elaborar um questionário UNIDADE 1 TÓPICO 1 5 M É T O D O S Q U A N T I T A T I V O S ou um roteiro de entrevista”. Aqui entram as restrições orçamentárias, o cronograma de pesquisa e o recrutamento de pessoas para trabalhar no processo. FIGURA 3 – PLANEJAMENTO ESTATÍSTICO FONTE: A autora. 2.4 COLETA DE DADOS A coleta de dados é o momento em que se obtêm os dados que irão responder à pergunta que estipulamos. Existem duas maneiras de obtenção de dados: a coleta direta e a indireta. A coleta de dados direta é aquela obtida diretamente, seja por meio de aplicação de questionários, por observação ou por meio da busca direta em registros oficiais. A outra maneira de obtenção de dados é a indireta, quando se utiliza de dados obtidos por coleta direta para outro fim. Os dados em si também podem ser divididos em duas categorias: os dados primários, que são aqueles obtidos diretamente por meio de um questionário, tomada de tempo ou preço, por exemplo, e os dados secundários, que são os obtidos através de pesquisa em outros dados, previamente coletados, como dados oficiais, outras pesquisas científicas. Se saber é poder, o conhecimento das possíveis fontes de dados secundários é uma porta de entrada para tal poder. Esse conhecimento permite tomar decisão de forma rápida, barata e mais bem informada. [...] Ainda, se estão disponíveis dados secundários adequados, você pode economizar a coleta dispendiosa de dados primários. No entanto, quando você usa dados secun- dários, as definições, a finalidade, a cobertura, a frequência e a exatidão [...] podem ser inadequados para seus objetivos, porque foram delineados com propósito genérico ou diferente do seu. (SILVER, 2000, p. 23).2.5 CRÍTICA DOS DADOS Os dados já foram coletados. Agora é necessário avaliar se eles estão de acordo com os objetivos traçados no planejamento, se há falhas ou erros que possam influenciar no resultado final. UNIDADE 1TÓPICO 16 M É T O D O S Q U A N T I T A T I V O S 2.6 APURAÇÃO DOS DADOS Nesta etapa, os dados obtidos na coleta são tabulados: os dados semelhantes são agrupados, de acordo com o tipo de resposta fornecido, por exemplo. 2.7 APRESENTAÇÃO DOS DADOS Nesta etapa são construídas as tabelas ou gráficos para que se consiga extrair informações a respeito dos dados apurados. 2.8 ANÁLISE DOS DADOS Com base na apresentação dos dados, é nessa fase que podemos tirar conclusões a respeito do objetivo da pesquisa. Alguns cálculos matemáticos que estudaremos mais à frente auxiliam nesta tarefa. 2.9 INTERPRETAÇÃO DOS DADOS Feita a análise, a última fase do método corresponde à interpretação dos dados obtidos. Nesta etapa podem ser feitas previsões a respeito do comportamento futuro dos dados, ou mesmo uma extrapolação de conclusões (se o objetivo inicial era conhecer a durabilidade média das lâmpadas fabricadas por uma indústria, ALGUMAS lâmpadas são testadas e, com base na durabilidade destas lâmpadas, define-se a durabilidade de TODAS as lâmpadas). É importante salientar que qualquer conclusão tirada da interpretação de dados está sujeita a certo grau de incerteza. 3 A ESTATÍSTICA COMO ÁREA DE ESTUDOS Durante certo tempo, a estatística foi considerada uma área de estudos da matemática aplicada. Devido à importância da área e as suas características, hoje ela própria é considerada UNIDADE 1 TÓPICO 1 7 M É T O D O S Q U A N T I T A T I V O S uma área de estudos e existem vários cursos de graduação em Estatística pelo país. A estatística como área de estudos pode ser dividida em três subáreas: • Estatística descritiva. • Probabilidade. • Inferência estatística. Em geral, uma pesquisa estatística envolve as três áreas. Vamos definir e entender qual é o papel de cada uma delas. 3.1 ESTATÍSTICA DESCRITIVA A estatística descritiva trabalha com dados observados. Normalmente, ela é utilizada em uma primeira etapa da pesquisa, e é responsável por resumir as informações de interesse a partir do que foi coletado. Não há espaço para dúvidas na estatística descritiva, ela simplesmente apresenta o que é. EXEMPLO 1: Um investidor está interessado em saber quanto rendeu determinada ação no mercado no último mês. Então ele toma o rendimento da ação em todos os dias do mês em questão e, a partir disso, conclui quanto a ação rendeu. Esta informação não dá espaço para dúvidas, uma vez que está baseada em fatos. EXEMPLO 2: Uma pesquisa de opinião sobre um desodorante ouviu 100 consumidores. Várias perguntas foram feitas sobre a embalagem, a fragrância, a textura, o preço e a eficácia do produto. Com base nestes dados, chegou-se à conclusão que 30% dos entrevistados estava satisfeita com o produto, 10% muito satisfeita, 40% estava indiferente e 20% estava insatisfeita. Essas informações foram obtidas pela Estatística Descritiva e só dizem respeito aos 100 consumidores consultados. É a estatística descritiva que iremos estudar neste curso. 3.2 PROBABILIDADE Segundo Magalhães (2010, p. 2), a “Probabilidade pode ser pensada como a teoria matemática utilizada para se estudar a incerteza oriunda de fenômenos aleatórios”, ou seja, sobre fenômenos sobre os quais não temos certeza. UNIDADE 1TÓPICO 18 M É T O D O S Q U A N T I T A T I V O S EXEMPLO 1: A previsão do tempo para a próxima segunda-feira é um fenômeno aleatório, pois não temos como prever o tempo. Neste caso, com base em comportamentos já conhecidos, estipula-se uma probabilidade de ocorrência de chuva, por exemplo. Mas nada garante que vá chover! EXEMPLO 2: Ao lançarmos um dado correto, não viciado, sabemos que a probabilidade de sair um três é de uma em seis, visto que o dado tem seis faces e em apenas uma aparece o três. Note que isto não significa que, se lançarmos o dado seis vezes, de fato, apareça o três uma única vez. Por outro lado, se lançarmos o dado 6000 vezes, é provável que em torno de 1000 vezes vá aparecer o três. A probabilidade é uma área bastante matemática e rica, envolvendo Teoria dos Conjuntos. 3.3 INFERÊNCIA ESTATÍSTICA A inferência estatística é responsável por extrapolar para um conjunto grande de dados os valores obtidos para um conjunto muito menor. Ela surge da incapacidade de se trabalhar com todos os dados de interesse: neste caso, escolhe-se um subconjunto menor destes dados, estuda-se este subconjunto e, através da inferência, obtêm-se conclusões sobre o conjunto inteiro. EXEMPLO: Voltemos à pesquisa de opinião sobre o desodorante, em que foram ouvidos 100 consumidores. Com base nos resultados obtidos, aplicam-se técnicas de inferência estatística para prever a opinião de todos os consumidores do desodorante. A figura a seguir relaciona algumas das fases do método estatístico com os três ramos mencionados. FIGURA 4 – FASES DO MÉTODO ESTATÍSTICO FONTE: A autora. UNIDADE 1 TÓPICO 1 9 M É T O D O S Q U A N T I T A T I V O S RESUMO DO TÓPICO 1 Neste tópico, conhecemos um pouco a estatística, mais precisamente, vimos que: • Estatística é o “conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento”. (MAGALHÃES, 2010, p. 1). • As principais fases do método estatístico são: a definição do problema, a delimitação do problema, o planejamento, a coleta de dados, a crítica destes dados, a apuração, a apresentação, a análise e, por fim, a interpretação dos dados coletados. • A estatística como área de estudos pode ser dividida em três subáreas: estatística descritiva, probabilidade e inferência estatística. • As fases de coleta, crítica, apuração, apresentação e análise de dados correspondem à estatística descritiva; já a fase de interpretação é associada à probabilidade e a inferência estatística. • A interpretação dos dados estatísticos sempre envolve certo grau de incerteza. UNIDADE 1TÓPICO 110 M É T O D O S Q U A N T I T A T I V O S AUT OAT IVID ADE � Vamos fixar os conteúdos vistos neste tópico, resolvendo alguns exercícios. Analise as sentenças a seguir e classifique V para as verdadeiras ou F para as falsas. a) ( ) Quando falamos em pesquisa estatística, estamos nos referindo necessariamente à aplicação de questionários para pessoas responderem. b) ( ) A estatística descritiva é o cálculo de medidas que permite descrever, com detalhes, o fenômeno que está sendo analisado (CASTANHEIRA, 2008). c) ( ) A definição do problema pode ser redefinida após a coleta e apuração dos dados, caso as informações obtidas caminhem em outra direção do que a inicialmente delimitada. d) ( ) Sempre que possível, devemos trabalhar com dados primários, isto é, obtidos por meio de coleta direta: eles se adequam melhor ao objetivo da pesquisa. e) ( ) Dados são informações que podem ser coletadas de diversas maneiras diferentes como, por exemplo, fichas médicas, registros oficiais, questionários e exames laboratoriais. M É T O D O S Q U A N T I T A T I V O S POPULAÇÃO E AMOSTRA 1 INTRODUÇÃO TÓPICO 2 Imagine que uma pequena fábrica de biscoitos mudou a fórmula de seu produto e quer fazer uma pesquisa de opinião para saber o que os consumidores acharam da mudança. Para isso, é elaborado um questionário a ser aplicado durante certo período. Algumas questões que se põem são: de que forma este questionário será aplicado? Como alcançaros consumidores do produto? A maneira mais abrangente seria aplicá-lo na saída de todos os pontos de venda do biscoito. Desta maneira, todos os consumidores seriam consultados e a empresa saberia exatamente o que as pessoas pensaram da mudança. Claramente, esta abordagem seria bastante cara e demorada. Muitas pessoas precisariam ser contratadas e treinadas para abranger todos os pontos de venda. Outra possibilidade seria, através de um conjunto de critérios, a empresa escolher alguns pontos de venda e, nestes pontos, alguns consumidores. Se a escolha for bem feita, mesmo a empresa tendo acesso a algumas opiniões, o resultado final da pesquisa será muito similar ao obtido pela primeira maneira, embora o custo envolvido no processo seja muito menor. O exemplo anterior ilustra a diferença entre os conceitos de população e amostra, que veremos detalhadamente a seguir. UNIDADE 1 2 POPULAÇÃO X AMOSTRA No exemplo anterior, vimos duas maneiras de realizar uma mesma pesquisa: a primeira abrangeria todos os envolvidos, ou seja, toda a população de consumidores do biscoito. A segunda abordagem envolveria apenas uma amostra da população de consumidores. Formalmente, “população é uma coleção inteira de objetos ou resultados sobre os quais uma UNIDADE 1TÓPICO 212 M É T O D O S Q U A N T I T A T I V O S informação é obtida”, enquanto “amostra é um subconjunto de uma população que contém os objetos ou resultados que são realmente observados” (NAVIDI, 2012, p. 3). O ato de escolher a amostra é chamado de amostragem. FIGURA 5 – POPULAÇÃO E AMOSTRA FONTE: A autora. Note que, apesar de utilizarmos a palavra população, ela não necessariamente se refere a pessoas. A população pode ser toda a população de uma cidade, mas também podem ser todos os produtos de uma fábrica produzidos em determinado período, todo o sangue de uma pessoa, certo tipo de bactérias, as árvores de uma floresta ou a água de um rio. Em geral, fatores econômicos impossibilitam estudar toda a população (lembra nosso exemplo da fábrica de biscoitos?), mas fatores éticos ou um curto prazo de tempo também podem ser determinantes. Ainda há casos em que simplesmente não há como trabalhar com toda a população de interesse: como analisaríamos todo o sangue de uma pessoa para detectar a presença de certa doença? Como coletaríamos toda a água de um rio para analisar a quantidade de poluentes? Nestes casos, faz-se necessário trabalhar com amostras. Agora que a diferença entre amostra e população foi posta, outra pergunta surge: como escolher a amostra? Queremos que os resultados obtidos ao trabalharmos com a amostra sejam os mesmos que obteríamos se trabalhássemos com a população, e, portanto, precisamos garantir que a amostra seja escolhida de forma que replique o comportamento da população. Por exemplo, suponhamos que queremos analisar a quantidade de poluentes em determinado rio. O censo comum nos diz que, se coletarmos água perto da saída de esgoto de uma fábrica será diferente do que se coletarmos água na foz do rio, ou mesmo no delta deste rio; numa campanha eleitoral, imagina-se que a intenção de voto dos eleitores que frequentam UNIDADE 1 TÓPICO 2 13 M É T O D O S Q U A N T I T A T I V O S determinado shopping de luxo será diferente dos eleitores que frequentam a feira municipal. Como então escolher os elementos da amostra? 3 TIPOS DE AMOSTRA A diferença entre os tipos de população já nos dá uma ideia de que há diferentes tipos de amostra. As características da população-alvo, muitas vezes, nos indicarão qual é a melhor maneira de obter a amostra, mas outros fatores também podem nos ajudar. Por exemplo, suponhamos que estejamos interessados em estudar a população de São Paulo. Sabe-se que a zona Sul da cidade é mais populosa do que a Zona Oeste ou mesmo a Zona Norte, assim seria sensato levar este fato em consideração ao escolher os elementos que irão compor a amostra. Vamos a seguir apresentar alguns tipos de amostra e ilustrá-los por meio de exemplos. 3.1 AMOSTRAS ALEATÓRIAS SIMPLES A amostragem aleatória simples é a mais usada. Formalmente, “uma amostra aleatória simples de tamanho n é uma amostra escolhida por algum método no qual cada coleção de n itens da população é igualmente provável de compor a amostra, da mesma forma como em uma loteria”. (NAVIDI, 2012, p. 3). Assim, cada elemento da população tem a mesma probabilidade de estar na amostra. Há várias maneiras de obter uma amostra aleatória simples. EXEMPLO 1: Em uma cidade com 250.000 habitantes, queremos saber a opinião a respeito da administração municipal. Para montar uma amostra aleatória simples de tamanho 200, vamos considerar a lista telefônica e escolher aleatoriamente 200 nomes. EXEMPLO 2: Em uma sala de aula de cursinho com 150 alunos, pretende-se saber quantos prestarão vestibular para a área das humanas. Para compor uma amostra com 30 estudantes, escolhe-se o primeiro, conta-se 50 estudantes e toma-se o 51º como segundo elemento da amostra; conta-se 50 estudantes a partir deste e toma-se o 51º como terceiro elemento da amostra e assim por diante. EXEMPLO 3: Para testar a durabilidade das lâmpadas fabricadas por uma indústria, escolhe-se um dia útil ao acaso e toma-se uma lâmpada de cada máquina em cada hora de produção deste dia. UNIDADE 1TÓPICO 214 M É T O D O S Q U A N T I T A T I V O S FIGURA 6 – AMOSTRA ALEATÓRIA SIMPLES FONTE: A autora. 3.2 AMOSTRAS POR CONVENIÊNCIA Algumas vezes, não é possível obter uma amostra por um método aleatório bem definido e é preciso utilizar uma amostra conveniente. Vamos entender este conceito por meio de alguns exemplos. EXEMPLO 1: Ao se retirar sangue de uma pessoa para detectar a presença de eventual vírus, normalmente, coleta-se uma amostra de sangue do braço do paciente. Quando não é possível, tenta-se coletar da mão, e assim por diante. EXEMPLO 2: Acaba de chegar um carregamento de tijolos em uma construção e o engenheiro quer saber se toda a carga de tijolos está de acordo com a especificação. Ele terá bastante dificuldade para acessar os tijolos que estão por baixo das pilhas. Então, escolherá alguns do topo das pilhas mais à frente para compor sua amostra. UNIDADE 1 TÓPICO 2 15 M É T O D O S Q U A N T I T A T I V O S FIGURA 7 – AMOSTRAGEM POR CONVENIÊNCIA FONTE: A autora. 3.3 AMOSTRAS PONDERADAS As amostras ponderadas levam em conta que certos indivíduos têm maior chance de fazerem parte de uma amostra do que outros. EXEMPLO 1: Uma revista sobre carros quer saber o que as pessoas levam em conta na hora de escolher o carro que irão comprar. Sabe-se que os homens e as mulheres têm opiniões distintas, logo a pesquisa deve levar isto em conta na hora do levantamento de dados. EXEMPLO 2: Uma pesquisa realizada em um parque municipal durante uma semana deve levar em conta que alguns indivíduos frequentam o parque diariamente, enquanto outros, apenas nos fins de semana. Assim, os frequentadores assíduos têm maior chance de serem escolhidos para compor a amostra. UNIDADE 1TÓPICO 216 M É T O D O S Q U A N T I T A T I V O S FIGURA 8 – AMOSTRAGEM PONDERADA FONTE: A autora. 3.4 AMOSTRAGEM ESTRATIFICADA A amostra estratificada implica dividir a população em estratos, isto é, conjuntos menores, de modo que, se escolhermos um representante da população, ele está em um conjunto, e apenas neste conjunto. Assim, ao invés de trabalhar com a população, trabalhamos com estes conjuntos, tomando uma amostra aleatória simples em cada um deles. EXEMPLO 1: Uma pesquisa sobre o serviço prestado pela companhia responsável pelo recolhimento do lixo de uma cidade deverá levar em conta os habitantes da zona rural e da zona urbana. Como a frequência comque o recolhimento do lixo ocorre nestas duas áreas pode ser diferente, é aconselhável dividir em dois estratos (zona urbana e zona rural) e estudá- los de maneira isolada. A opinião geral da população será obtida juntando as informações dos dois estratos. EXEMPLO 2: Suponha que um instituto de pesquisa esteja interessado na intenção de voto para Presidente da República do Brasil. Então o instituto considera separadamente as cinco regiões do país (Sul, Sudeste, Centro-Oeste, Nordeste e Norte) e, em cada região, compõe uma amostra com seus habitantes. Desta forma, além de obter um resultado global, pode comparar o comportamento dos votos nas diferentes regiões. Note que, para que seja composta uma amostra estratificada, é preciso ter um conhecimento prévio da população: no exemplo anterior, sabe-se de antemão que o país é dividido em cinco regiões diferentes. UNIDADE 1 TÓPICO 2 17 M É T O D O S Q U A N T I T A T I V O S FIGURA 9 – AMOSTRAGEM ESTRATIFICADA FONTE: A autora. 3.5 AMOSTRAGEM POR GRUPOS A amostragem por grupos ocorre quando a população a ser estudada é muito grande. Neste caso, classifica-se a amostra em grupos escolhidos aleatoriamente, e se escolhem alguns deles para trabalhar. Na verdade, estes grupos serão estudados cada um como se fosse a própria população. EXEMPLO 1: Geólogos estão interessados em estudar a composição do solo em determinada região. Para isso, delimitam uma área escolhida aleatoriamente (grupo da amostra) e, nesta área, realizam suas pesquisas. Mais à frente, uma nova área (grupo da amostra) é delimitada. EXEMPLO 2: Geneticistas estudam a reação de certo tipo de bactéria a uma nova droga. Note que é impossível que eles tenham acesso a toda a população de bactérias! Então, selecionam uma cultura de bactérias para servir de amostra. UNIDADE 1TÓPICO 218 M É T O D O S Q U A N T I T A T I V O S FIGURA 10 – AMOSTRAGEM POR GRUPOS FONTE: A autora. 4 ERROS E TENDENCIOSIDADE Com base nos tipos e particularidades de cada amostra, você deve ter percebido que uma amostra mal escolhida pode acarretar em erros na pesquisa. Por exemplo, se uma pesquisa avalia a opinião pública sobre a administração municipal sem levar em conta a distribuição demográfica da cidade, ou os diferentes bairros, pode-se chegar a uma conclusão totalmente parcial. Mas existem outros tipos de erros que podem ocorrer em uma pesquisa estatística: além do erro de amostragem, segundo Silver (2000), podem ocorrer erros de respostas, erros de falta de resposta e erros de delineamento. Vamos a seguir caracterizar cada um destes tipos de erros. 4.1 ERRO DE AMOSTRAGEM Conforme vimos anteriormente, muitas vezes, torna-se impossível trabalhar com a população inteira para realizar uma pesquisa estatística, optando-se por trabalhar com amostras. O erro de amostragem surge quando o tamanho da amostra é muito pequeno em relação ao tamanho a população. EXEMPLO: Suponhamos que estivéssemos interessados em estudar a frequência com que a população de determinado estado consome bebidas alcoólicas. Se perguntarmos para duas pessoas se elas consumiram bebida alcoólica na última semana e elas responderem que UNIDADE 1 TÓPICO 2 19 M É T O D O S Q U A N T I T A T I V O S sim, poderíamos ser levados a concluir que a população inteira teve o mesmo comportamento. Se a amostra fosse composta por cinco pessoas, três respondessem não, e duas respondessem sim, concluiríamos que a população não consumiu bebida alcoólica na última semana. Entretanto, essa conclusão seria correta? Uma amostra de cinco pessoas teria como representar a população de um estado inteiro? Normalmente, quanto maior for a amostra, mais representativa ela é, ou seja, o comportamento da amostra fica mais próximo do comportamento da população. Isso não significa que ele será igual, mas é possível definir um erro máximo que será cometido: quanto maior o tamanho da amostra, menor o erro. Por outro lado, trabalhar com amostras de tamanho muito próximo da população também não é interessante, por todos os motivos já descritos. Assim, uma tarefa importante é definir o tamanho mínimo da amostra, de maneira a reduzir a possibilidade de cometer erros de amostragem. UNI Existem várias maneiras de determinar o tamanho ideal da amostra, com base no erro máximo que se deseja cometer. Não vamos entrar no mérito, mas você pode encontrar uma equação para o cálculo deste erro em Silver (2000). 4.2 ERRO DE RESPOSTA O erro de resposta é a diferença entre a resposta dada e a resposta verdadeira. Este erro é comum quando a população da pesquisa é composta por pessoas. EXEMPLO 1: Uma empresa faz uma pesquisa sobre o desempenho da chefia de um setor. Para isso, pergunta aos funcionários subordinados ao setor sua opinião. Como saber se a resposta que será dada é de fato a resposta verdadeira? EXEMPLO 2: O questionário socioeconômico de uma escola pergunta qual é a renda média da família do estudante, em salários mínimos. Muitas famílias podem responder receber valores menores aos de fato recebidos para ter acesso a bolsas de estudos, enquanto outras podem ficar constrangidas e dão valores superiores aos reais. Como controlar este tipo de erro? Há várias maneiras de se verificar a ocorrência destes erros. Uma maneira é fazer a UNIDADE 1TÓPICO 220 M É T O D O S Q U A N T I T A T I V O S mesma pergunta de maneiras diferentes ao longo do questionário, pegando discrepâncias de informação. A maneira de elaborar a pergunta também pode minimizar o risco de informações erradas ou imprecisas. Ainda é possível entrevistar mais de uma vez a mesma pessoa, por pesquisadores diferentes, com abordagens diferentes. 4.3 ERRO DE FALTA DE RESPOSTA O erro de falta de resposta surge da negativa do entrevistado em dar sua opinião. EXEMPLO: Quando os meios de comunicação divulgam os resultados das pesquisas de intenção de voto, sempre informam o percentual de pessoas que não quiseram opinar sobre o assunto. Este tipo de erro é difícil de ser medido, porque muitas vezes, o número de pessoas que não quiseram opinar simplesmente não é levado em conta. No caso do exemplo anterior, suponha que os entrevistadores tenham tentado coletar a opinião dos entrevistados na rua. Muitas pessoas podem simplesmente tê-los ignorado e, neste caso, o entrevistador ter buscado outras pessoas para perguntar. Quando os resultados finais forem levados em conta, o número de pessoas que não quiseram opinar pode ser pequeno, simplesmente porque parte delas foi ignorada na contagem. 4.4 ERRO DE DELINEAMENTO O erro de delineamento surge quando o grupo que compõe a amostra não representa a população. Em outras palavras, o erro de delineamento surge da má escolha do tipo de amostra a ser considerada para determinada população. EXEMPLO: Uma escola está interessada em saber quantos de seus alunos fumam ou já fumaram. Como a escola tem muitos estudantes, é escolhida a sala do primeiro ano do ensino médio para representar a escola. Obviamente, o resultado da pesquisa será tendencioso, pois prioriza apenas uma faixa etária. UNIDADE 1 TÓPICO 2 21 M É T O D O S Q U A N T I T A T I V O S RESUMO DO TÓPICO 2 Neste tópico estudamos as diferenças entre população e amostra. Mais precisamente, vimos que: • População é formada pelo conjunto de dados sobre os quais queremos extrair alguma informação. • Amostra é uma parte representativa da população. • Amostragem é o ato de compor uma amostra. • Há várias possibilidades de escolher uma amostra, entre elas, a amostragem aleatória simples, amostragem ponderada, amostragem estratificada, amostragem por grupo. • Toda pesquisa estatística está sujeita a alguns erros: erro de amostragem,erro de delineamento, erro de resposta e erro de falta de resposta. UNIDADE 1TÓPICO 222 M É T O D O S Q U A N T I T A T I V O S AUT OAT IVID ADE � Para testar seus conhecimentos, resolva os exercícios a seguir: 1 Analise as situações a seguir e indique quem compõe a população e, quando for o caso, a amostra. a) A Polícia Rodoviária Federal quer divulgar o total de acidentes com vítimas nas rodovias federais no último feriado. Para isso, coleta o número de chamados atendidos pelas suas guaritas para este tipo de ocorrência. b) Uma fábrica de refrigerantes quer medir a variação na quantidade de líquido em suas garrafas de 300 ml. Para isso, coleta uma garrafa de cada caixa produzida em um dia de trabalho. c) O Estado de Santa Catarina quer saber a eficácia da última campanha de vacinação contra a paralisia. Para isso realiza uma pesquisa com as mães de crianças que procuram o posto de saúde em determinado período. d) Um administrador quer estudar o rendimento das ações de certa companhia no último mês. Para isso, considera os dados de fechamento destas ações no período. 2 Analise as situações a seguir e indique qual é o tipo de amostragem considerado. a) Astrônomos querem estudar a composição do solo de Marte. Para isso, coletam uma amostra do solo por meio da sonda espacial. b) Professores de um cursinho querem saber quais os cursos que serão mais procurados pelos estudantes de terceiro ano do ensino médio de sua cidade. Para isso, sorteiam algumas escolas, escolhem uma turma de cada uma destas escolas por turno e para realizam um questionário com todos os alunos. c) Um jornal percebeu uma queda no número de assinantes no último ano. Para verificar a causa, considerou a lista de antigos clientes em ordem alfabética e escolheu aleatoriamente 50 nomes nesta lista, e realizou ligações telefônicas perguntando o motivo da não renovação da assinatura. d) Uma academia de ginástica quer oferecer uma nova modalidade de atividade de física, mas não sabe bem ao certo qual. Então, escolheu aleatoriamente alguns de seus clientes. Como 70% dos frequentadores são mulheres, levou esta proporção em consideração na hora de compor sua amostra. e) O governo quer saber qual é a renda per capita média da população brasileira para saber em quais setores deve oferecer subsídios. Como suspeita de que há diferenças consideráveis em relação aonde a população mora, resolve tomar amostras contemplando todos os estados, e levando este fato em consideração. UNIDADE 1 TÓPICO 2 23 M É T O D O S Q U A N T I T A T I V O S 3 Analise e indique a que tipo de erro as situações a seguir estão propensas. a) Uma montadora de automóveis quer saber quais são os itens, que não são de série, mais valorizados na hora da compra. Para isso, escolhe os clientes que adquiram seus automóveis nos meses de maio e junho e realiza via telefone um questionário. b) A mesma montadora quer saber o nível de satisfação dos clientes com o pós venda de suas lojas. Para isso, seleciona clientes que vêm às concessionárias para a revisão do veículo durante um ano e aplica um questionário. c) Um laboratório quer testar uma nova vacina em animais. Para isso considera uma amostra de 16 ratos doentes, aplica a vacina contendo o medicamento em metade deles, aplica uma solução de soro fisiológico na outra metade e observa a evolução da doença. d) Uma rede de supermercado quer dimensionar o nível de satisfação dos clientes que fazem uso do serviço de entrega oferecido pela rede. Para isso, escolhe no seu cadastro 30 clientes e realiza um questionário por telefone. UNIDADE 1TÓPICO 224 M É T O D O S Q U A N T I T A T I V O S M É T O D O S Q U A N T I T A T I V O S VARIÁVEIS ESTATÍSTICAS 1 INTRODUÇÃO TÓPICO 3 Quando queremos extrair certas informações por meio de uma pesquisa estatística, elaboramos perguntas que podem nos fornecer dados a respeito destas informações. A estes dados de interesse, damos o nome de variáveis. Assim, variáveis são as características que queremos observar ou medir em cada pesquisa (MAGALHÃES, 2010). EXEMPLO: Uma empresa está interessada em pesquisar a aceitação dos consumidores em relação a um novo tipo de biscoito. As variáveis desta pesquisa podem ser sabor, textura, aparência, apresentação, preço, facilidade em encontrar etc. UNIDADE 1 UNI Note a diferença entre os conceitos de variáveis e dados. Enquanto variáveis são as características que queremos observar, os dados são as respostas para estas informações. As variáveis a serem estudadas precisam ser pertinentes, estarem relacionadas com o fenômeno que queremos investigar. Assim, dependendo da natureza da variável, os dados obtidos em uma pesquisa podem ser numéricos ou não. Essas diferenças entre a natureza das variáveis é importante, pois ela vai nos dizer a maneira mais eficiente de tratá-las e apresentá- las. Assim, é importante conhecermos os diferentes tipos de variáveis que podemos nos deparar. UNIDADE 1TÓPICO 326 M É T O D O S Q U A N T I T A T I V O S 2 TIPOS DE VARIÁVEIS Suponhamos que a prefeitura de uma cidade queira conhecer o perfil dos frequentadores de um parque municipal. Para isso, elabora um questionário extenso, que pergunta, entre outras questões, o gênero e a idade do entrevistado. Para gênero, é esperada uma resposta do tipo feminino ou masculino; já para idade, espera-se como resposta um número inteiro, entre 12 e 90 anos. Dependendo da natureza da variável, ela é classificada como qualitativa ou como quantitativa. Vamos a seguir trabalhar um pouco esses conceitos e estabelecer as diferenças entre eles. 2.1 VARIÁVEIS QUALITATIVAS Dizemos que uma variável é qualitativa quando diz respeito a uma qualidade, e geralmente resultam de uma classificação. EXEMPLO 1: O gênero informado na pesquisa sobre os frequentadores do parque é uma variável qualitativa, pois cada entrevistado será classificado como “masculino” ou “feminino”. EXEMPLO 2: Uma empresa quer ajudar a custear um curso de capacitação para os seus funcionários, mas primeiro, para estudar a viabilidade do projeto, precisa estabelecer o nível de escolaridade predominante entre os trabalhadores. Assim, os funcionários serão classificados como possuindo nível fundamental de escolaridade, médio ou superior. Outra maneira de avaliar poderia ser considerada: a empresa poderia simplesmente separá-los entre aptos a fazerem o curso e não aptos. Ambas as variáveis propostas são variáveis qualitativas. Note que, mesmo entre as variáveis qualitativas, há diferenças. Por exemplo, entre aptos e não aptos, não há uma ordem, assim como quando a pergunta é o gênero. Já quando a questão é a escolaridade, há uma ordem intrínseca: se o candidato tem nível médio de escolarização, ele também tem o fundamental; se o funcionário tem nível superior, ele também tem o fundamental e o médio. Assim, existem dois tipos de variáveis qualitativas: a. Variável qualitativa nominal: quando não há uma ordem na classificação. b. Variável quantitativa ordinal: quando há ordem envolvida, há uma classificação. EXEMPLOS: Cor dos olhos, raça, gênero, preferência entre gêneros de filmes são exemplos de variáveis qualitativas nominais. Nível de escolaridade, classificação em uma prova, ordem de chegada em uma corrida, conceito em uma prova (A, B, C) são exemplos de variáveis qualitativas ordinais. UNIDADE 1 TÓPICO 3 27 M É T O D O S Q U A N T I T A T I V O S ATEN ÇÃO! Ordenar é diferente de codificar! Assim, se a variável gênero aceita 1 para feminino e 2 para masculino, embora os dados sejam numéricos, a variável continua sendo qualitativa. 2.2 VARIÁVEIS QUANTITATIVAS As variáveis quantitativasresultam de uma contagem ou mensuração. São exemplos desse tipo de variável peso, altura, idade, tamanho, preço entre outros. Assim como no caso das quantitativas, elas também podem ser classificadas em dois grupos distintos: as variáveis quantitativas contínuas e as variáveis quantitativas discretas. a. Variável qualitativa contínua: quando qualquer valor dentro de um intervalo numérico é esperado. b. Variável quantitativa discreta: apenas valores fixos são esperados como resposta, valores provenientes de uma contagem. Vamos entender melhor a diferença entre esses dois conceitos por meio de um exemplo. EXEMPLO: Suponhamos que uma assistente social esteja interessada no perfil das grávidas que procuram o posto de saúde de uma comunidade. Entre as variáveis de interesse estão idade, peso adquirido nos primeiros meses de gestação e renda familiar em salários mínimos, todas variáveis quantitativas. Para ter acesso a estas informações, a assistente social utiliza as fichas cadastrais e médicas das gestantes existentes no posto. Obviamente, ela não espera que, em relação à idade, alguém tenha informado que possui 20,3 anos: é esperado que as respostas sejam números inteiros, 20, 21, 31 40 anos. Já em relação ao peso, se a assistente utilizar as fichas médicas das pacientes para obter essa informação, encontrará valores dos mais diversos: 4,2 kg, 1 kg, 3,72 kg. Assim, a idade caracteriza uma variável quantitativa discreta, enquanto o peso é uma variável quantitativa contínua. E a renda familiar? Aí depende como ela se apresenta (por quê?). Esse exemplo ilustra uma importante característica das variáveis: a classificação depende da maneira como os dados são coletados. Uma variável quantitativa pode ser discreta sob uma perspectiva e contínua sobre a outra. UNIDADE 1TÓPICO 328 M É T O D O S Q U A N T I T A T I V O S UNI A classificação das variáveis não é estática. Às vezes, uma variável contínua pode ser tratada como discreta, dependendo da particularidade da pesquisa. Por exemplo, a variável ‘peso’, em uma determinada pesquisa, pode ser tratada como variável discreta. 3 ARREDONDAMENTO Aproveitaremos este tópico, em que apresentamos o conceito de variáveis para tratar de um importante item: o arredondamento numérico. É preciso tomar certos cuidados ao se trabalhar com variáveis quantitativas contínuas, pois frequentemente, precisamos definir com quantas casas decimais iremos trabalhar, uma vez que este tipo de variável pode assumir qualquer valor numérico. Essa decisão precisa ser tomada para que os dados fiquem organizados e padronizados, garantindo assim melhor apresentação. Vamos entender como proceder através de um exemplo. Suponhamos que em uma relação de dados relativos à determinada variável, apareceram os seguintes valores: 5,21 4,13 5,124 2,12 3,156 4,02 2,1 3,92 2,95 2,65 4,21 5 4,21 2,155 3,04 2,125 4,08 5,02 Note que a maioria dos números possui duas casas decimais após a vírgula. Para padronizar os dados, vamos considerar então todos os números desta forma, com dois algarismos depois da vírgula. Os números que possuem menos de dois algarismos facilmente se enquadram neste novo formato: basta acrescentar zeros. Assim, 2,1 torna-se 2,10 e 5 torna- se 5,00. A questão que se põe agora é com o proceder com os números que possuem mais de dois algarismos depois da vírgula. Comecemos pelo número 5,124. Como vamos arredondá-lo para duas casas decimais, temos duas possibilidades: arredondá-lo para 5,12 ou para 5,13. Como 5,124 está mais próximo de 5,12 que de 5,13, iremos arredondá-lo para 5,12. UNIDADE 1 TÓPICO 3 29 M É T O D O S Q U A N T I T A T I V O S FIGURA 11 – REGRAS DE ARREDONDAMENTO – RETA NUMÉRICA FONTE: A autora. Analisando agora o número 3,156, percebemos que ele está mais próximo de 3,16 do que de 3,15 e, portanto, vamos arredondá-lo para 3,16. FIGURA 12 – RÉGUA NUMÉRICA – REGRAS DE ARREDONDAMENTO FONTE: A autora. Vamos agora analisar os dois números restantes: 2,155 e 2,125. A técnica que utilizamos acima não nos ajudará nestes casos, pois ambos os números estão a uma mesma distância de seus antecessores e sucessores, respectivamente. FIGURA 13 – RÉGUAS NUMÉRICAS – REGRAS DE ARREDONDAMENTO FONTE: A autora. Aqui entram as regras estabelecidas pela Associação Brasileira de Normas Técnicas – ABNT (NBR 5891 de 1977). Para arredondar números nesta situação, olhamos o algarismo que iremos arredondar: se ele for par, deixamos tudo como está, mas se ele for ímpar, acrescentamos uma unidade. Voltando ao exemplo: UNIDADE 1TÓPICO 330 M É T O D O S Q U A N T I T A T I V O S FIGURA 14 – REGRAS DE ARREDONDAMENTO SEGUNDO A ABNT FONTE: A autora. No exemplo anterior, arredondamos os números em duas casas decimais depois da vírgula. Consideremos alguns exemplos com uma quantidade diferente de casas decimais significativas para assimilar melhor as regras propostas. EXEMPLO 1: Vamos arredondar os números a seguir em três casas decimais depois da vírgula: 2,1 10 13456 9,1852 4,1935 12,0005 • 2,1 torna-se 2,100. • 10,13456 está entre 10,134 e 10,135; como o número 10,13456 está mais próximo de 10,135 do que de 10,134, 10,13456 torna-se 10,135. • 9,1852 está entre 9,185 e 9,186; como está mais próximo de 9,185 do que de 9,186, 9,1852 torna-se 9,185. • 4,1935 está no meio do caminho entre 4,193 e 4,194. Como 3 é ímpar, pelas regras da ABNT, 4,1935 torna-se 4,194. • 12,0005 está no meio do caminho entre 12,000 e 12,001. Como 0 é par, pelas regras da ABNT, 12,0005 torna-se 12,000. EXEMPLO 2: Vamos arredondar os números a seguir em uma casa decimal depois da vírgula: 4,5 4 4,32 4,36 4, 25 4,35 • 4,5 continua 4,5. UNIDADE 1 TÓPICO 3 31 M É T O D O S Q U A N T I T A T I V O S • 4 tornam-se 4,0 – acrescentamos 1 zero ao número. • 4,32 tornam-se 4,3 – o número 4,32 está mais próximo de 4,3 do que de 4,4. • 4,36 tornam-se 4,4 – o número 4,36 está mais próximo de 4,4 do que de 4,3. • 4,25 tornam-se 4,2 – o número 4,25 está à mesma distância de 4,2 e de 4,3; como o algarismo 2 é par, pelas regras ABNT, 4,25 tornam-se 4,2. • 4,35 tornam-se 4,4 – o número 4,35 está à mesma distância de 4,3 e de 4,4; como o algarismo 3 é ímpar, pelas regras ABNT, 4,35 tornam-se 4,4. EXEMPLO 3: Vamos arredondar os números a seguir para um número inteiro: 5 52 5,01 5,58 5,5 6,5 • 5 continua 5. • 52 continua 52. • 5,01 tornam-se 5 – o número 5,01 está mais próximo de 5 do que de 6. • 5,58 tornam-se 6 – o número 5,58 está mais próximo de 6 do que de 5. • 5,5 tornam-se 6 – o número 5,5 está à mesma distância de 5 e de 6; como 5 é ímpar, 5,5 tornam-se 6. • 6,5 tornam-se 6 – o número 6,5 está à mesma distância de 6 e de 7; como 6 é par, 6,5 tornam-se 6. UNI Se você tiver dúvidas, trace a reta real como foi feito anteriormente para auxiliá-lo a decidir como fazer o arredondamento. Note que fizemos questão de salientar diversas vezes no decorrer do texto que estas regras de arredondamento são as estabelecidas pela ABNT. Tomamos este cuidado, porque existem outros critérios de arredondamento que variam de acordo com o instituto de pesquisa. O IBGE, por exemplo, adota outras medidas em seus estudos (IBGE, 1977). Há uma ampla discussão sobre esse assunto, e se você quiser saber mais detalhes, recomendamos o artigo de Araújo Filho, que consta nas referências bibliográficas. UNIDADE 1TÓPICO 332 M É T O D O S Q U A N T I T A T I V O S RESUMO DO TÓPICO 3 Neste tópico, estudamos as variáveis estatísticas e como elas se relacionam com os dados estatísticos. Mais precisamente, vimos que: • Enquanto dados são valores numéricos ou não associados a uma pesquisa estatística,chamamos de variáveis aos dados de interesse. • As variáveis podem ser classificadas em variáveis qualitativas (quando envolvem uma qualidade ou classificação) e variáveis quantitativas (variáveis numéricas). • Variáveis qualitativas ordinais são as variáveis onde há uma classificação envolvendo uma ordem. • Variáveis qualitativas nominais são as variáveis onde há uma classificação ou qualidade sem envolver ordem. • Variáveis quantitativas contínuas são as variáveis numéricas que podem assumir qualquer valor dentro de um intervalo. • Variáveis quantitativas discretas são variáveis numéricas que podem assumir apenas alguns números pré-estabelecidos. • Quando precisamos arredondar um dado numérico, observamos sua posição na reta numérica. UNIDADE 1 TÓPICO 3 33 M É T O D O S Q U A N T I T A T I V O S AUT OAT IVID ADE � Para testar seus conhecimentos, resolva os exercícios a seguir: 1 Classifique as variáveis a seguir como variáveis qualitativas (nominais ou ordinais) ou quantitativas (discretas ou contínuas), lembrando que esta classificação depende do contexto do problema. a) Em uma pesquisa, pede-se para o entrevistado escrever o algarismo 1 em um campo caso seja do sexo masculino e 2 caso seja do sexo feminino. b) Um laboratório está testando um novo material para sacolas plásticas biodegradáveis, e está medindo a quantidade de tempo que ele leva para se desintegrar completamente no meio ambiente. c) Após inúmeras denúncias, a fiscalização municipal está medindo o tempo médio de espera entre um ônibus e outro de determinada linha. d) Uma pesquisa sobre saúde pública pergunta se a pessoa é fumante ou não e, se for, quantos cigarros fuma por dia. e) O PROCON está de olho na alta de preços do material escolar. Para isso, está fazendo uma pesquisa na cidade, comparando os preços de lápis, caneta, borracha e cadernos nos estabelecimentos comerciais de uma cidade. f) A organização de uma maratona quer medir a quantidade de peso perdida pelos atletas no decorrer da prova. Para isso, realiza uma medição no início e no fim da prova, e classifica a perda de peso como leve, moderada ou forte ao final. g) Uma loja de departamento quer saber o grau de satisfação dos seus clientes com o atendimento recebido. Para isso estabelece um critério de satisfação, que varia de 1 a 5, sendo 1 totalmente insatisfeito e 5 totalmente satisfeito. 2 Arredonde os números a seguir para duas casas decimais depois da vírgula, segundo as regras estabelecidas pela ABNT: a) 203,1 b) 444,444 c) 592,55 d) 5,456 e) 78,885 f) 85,1150 g) 101,144 h) 54,165 i) 45,1651 j) 56 UNIDADE 1TÓPICO 334 M É T O D O S Q U A N T I T A T I V O S 3 Repita o exercício anterior, considerando 3 casas decimais depois da vírgula: a) 0,0000002 b) 10,000009 c) 10000 d) 103,3465 e) 45,5555 f) 45,555 g) 45,55555 h) 12,5551 i) 13,3091 j) 14,0009 M É T O D O S Q U A N T I T A T I V O S SÉRIES ESTATÍSTICAS 1 INTRODUÇÃO TÓPICO 4 No Tópico 1 deste Caderno de Estudos, vimos que a coleta, crítica, apuração e apresentação dos dados faziam parte do método estatístico. Uma vez coletados e criticados, era na apuração que os dados eram tabulados, de acordo com suas similaridades. Na verdade é na apuração que separamos os dados de acordo com a variável a que dizem respeito. A partir desta classificação é feita a apresentação destes dados, por meio de tabelas ou gráficos. Neste tópico, começaremos a discutir as formas de apresentação dos dados, mais precisamente, a apresentação de dados por meio de tabelas estatísticas. Mas o que é uma tabela estatística? De acordo com Oliveira (2010, p. 13), as tabelas estatísticas, ou séries estatísticas, “podem ser definidas como conjuntos de dados estatísticos, associados a um fenômeno, dispostos numa ordem de classificação”. Essa classificação deve levar em conta o fenômeno descrito (variável), onde ele foi observado e a época a que ele se refere. São as possíveis combinações entre estas classificações que possibilitam dividir as tabelas estatísticas em três tipos: tabelas estatísticas simples, tabelas de dupla entrada ou tabelas de frequências. Neste tópico trataremos dos dois primeiros tipos de tabela: as tabelas de frequência e os gráficos serão assunto na Unidade 2. UNIDADE 1 2 SÉRIES ESTATÍSTICAS SIMPLES As séries estatísticas simples são aquelas compostas por apenas duas colunas: uma destinada às categorias possíveis da variável, e a outra, aos dados propriamente ditos. De acordo com a variável abordada podem ser classificadas como séries históricas, geográficas ou específicas. Vamos tratar de cada uma delas a seguir. UNIDADE 1TÓPICO 436 M É T O D O S Q U A N T I T A T I V O S 2.1 SÉRIES HISTÓRICAS OU TEMPORAIS Como o próprio nome sugere são aquelas onde a variável apresentada é o tempo, enquanto o local e o fato observado permanecem fixos. Vamos dar alguns exemplos: TABELA 1 – EXEMPLO DE SÉRIE HISTÓRICA MATRÍCULAS NO ENSINO FUNDAMENTAL NA ESCOLA X – 2010-2013 Ano Número de matrículas 2010 654 2011 691 2012 703 2013 761 FONTE: A autora. TABELA 2 – SEGUNDO EXEMPLO DE SÉRIE HISTÓRICA EXTENSÃO DA REDE RODOVIÁRIA BRASILEIRA PAVIMENTADA – 1987-1992 Ano Extensão (km) 1987 128.206 1988 133.623 1989 136.647 1990 139.353 1991 139.415 1992 143.247 FONTE: Oliveira (2010) 2.2 SÉRIES GEOGRÁFICAS OU TERRITORIAIS As séries geográficas são aquelas em que a variável é o local onde o fenômeno é observado, enquanto o tempo e o fato observado permanecem fixos. UNIDADE 1 TÓPICO 4 37 M É T O D O S Q U A N T I T A T I V O S TABELA 1 – EXEMPLO DE SÉRIE HISTÓRICA TABELA 2 – SEGUNDO EXEMPLO DE SÉRIE HISTÓRICA TABELA 3 – PRIMEIRO EXEMPLO DE SÉRIE GEOGRÁFICA PESSOAS COM MAIS DE 15 ANOS EM ESTADOS PRÉ-SELECIONADOS – 2008 Ano Número de pessoas Amazonas 2.279.811 Paraíba 2.823.492 São Paulo 31.825.460 Rio Grande do Sul 8.397.355 Mato Grosso 2.266.442 Distrito Federal 1.931.019 FONTE: IBGE (1993) 2.3 SÉRIES ESPECÍFICAS OU CATEGÓRICAS As séries geográficas são aquelas em que a variável é o fato observado, enquanto o tempo e o local onde o fenômeno é observado permanecem fixos. TABELA 4 – EXEMPLO DE SÉRIE ESPECÍFICA EXTENSÃO DA MALHA RODOVIÁRIA BRASILEIRA POR ÓRGÃO DE ADMINISTRAÇÃO – 2013 Órgão Extensão (km) Municipal 175.822,19 Estadual 22.101,62 Federal 1.055,82 FONTE: DER. Disponível em: <http://www.der.sp.gov.br/website/Malha/malha_ extensao.aspx>. Acesso em: 30 jan. 2014. 3 SÉRIES DE DUPLA ENTRADA OU SÉRIES MISTAS Às vezes é interessante levar em conta mais de uma variável na tabela: neste caso, temos as séries de dupla entrada. UNIDADE 1TÓPICO 438 M É T O D O S Q U A N T I T A T I V O S TABELA 5 – EXEMPLO DE TABELA DE DUPLA ENTRADA TAXA DE MORTALIDADE INFANTIL, SEGUNDO AS GRANDES REGIÕES DO BRASIL – 1970-1990 Ano Taxa de mortalidade infantil (%) Brasil Norte Nordeste Sudeste Sul C e n t r o - Oeste 1970 115,0 104,3 146,4 96,2 81,9 89,7 1975 100,0 94,0 128,0 86,0 72,0 77,0 1980 82,8 79,4 117,6 57,0 58,9 69,6 1985 62,9 60,8 93,6 42,6 39,5 47,1 1990 48,3 44,6 74,3 33,6 27,4 31,2 FONTE: IBGE. Disponível em: <http://www.ibge.gov.br/home/estatistica/populacao/evolucao_ perspectivas_mortalidade/evolucao_mortalidade.pdf>. Acesso em: 30 jan. 2014. 4 CONSTRUÇÃO DE TABELAS Você deve ter notado que as séries estatísticas obedecem a um padrão de construção. Toda a tabela estatística deve ser composta por alguns elementos, que iremos mencionar a seguir. 4.1 TÍTULO Toda tabela deve conter um título sucinto na primeira linha, explicando do que trata a variável, a data e o ano da pesquisa. 4.2 CABEÇALHO O cabeçalhoé a parte superior da tabela e nos diz o que a coluna indicadora e o corpo da tabela contêm. 4.3 COLUNA INDICADORA A coluna indicadora corresponde à primeira coluna, onde é especificado o conteúdo das linhas da tabela. UNIDADE 1 TÓPICO 4 39 M É T O D O S Q U A N T I T A T I V O S 4.4 CORPO O corpo da tabela é o “conjunto de linhas e colunas que contém as informações sobre a variável em estudo”. (CRESPO, 2008, p. 17). Ela é composta por linhas, colunas e células ou casas. 4.5 TRAÇO Segundo Oliveira (2010, p. 20), “o traço é o que delimita o cabeçalho, as linhas e as colunas de uma tabela”. 4.6 FONTE, NOTAS E CHAMADA A fonte, as notas e as chamadas são informações que se localizam logo abaixo do corpo da tabela. A fonte é a indicação das entidades responsáveis pelo fornecimento ou elaboração das informações contidas na tabela, e deve estar imediatamente abaixo do corpo da tabela. As notas são informações adicionais gerais que foram julgadas importantes para esclarecer fatos ou descrever a metodologia adotada na coleta dos dados e, caso apareçam, devem estar imediatamente abaixo da fonte. Por fim, chamadas referem-se a informações específicas sobre determinada parte da tabela e, caso apareçam, devem estar abaixo das notas. UNIDADE 1TÓPICO 440 M É T O D O S Q U A N T I T A T I V O S FIGURA 15 – ELEMENTOS DA TABELA ESTATÍSTICA FONTE: Adaptado de: Oliveira (2010, p. 21). UNI Se você quiser saber mais sobre as regras de tabulação, indicamos o livro Estatística: uma nova abordagem, de Oliveira presente em nossas referências. Na Unidade 2 daremos continuidade ao estudo relativo à apresentação de dados, trabalhando com as tabelas de distribuição de frequência e gráficos estatísticos. UNI Existem muitos livros que tratam da utilização da estatística no dia a dia e da importância em interpretar as informações da melhor maneira possível. Um livro que faz a ponte entre a estatística e o cálculo de risco é o livro Desafio aos Deuses, de Peter L. Bernstein. Fica a dica de leitura! UNIDADE 1 TÓPICO 4 41 M É T O D O S Q U A N T I T A T I V O S O texto a seguir fala da necessidade de termos cuidado ao interpretar informações estatísticas a que temos acesso diariamente. Você já deve ter percebido, ao longo deste capítulo, tabelas envolvendo porcentagens, onde a soma de todas elas está acima de 100%, ou mesmo onde uma das porcentagens é 100%. Como exemplo, citamos a Tabela 5 denominada Exemplo de Tabela de Dupla Entrada, que tratava do índice de mortalidade. Se o índice, em 1975 era de 100%, como existem pessoas que nasceram no Brasil naquele ano? Será que o IBGE errou a respeito dos dados? Leia o texto a seguir e tire suas próprias conclusões a respeito. LEITURA COMPLEMENTAR Especialistas ensinam como interpretar as estatísticas de saúde Roberta Jansesn RIO – Digite a palavra câncer no Google News – a ferramenta de busca de notícias do site – e, em menos de um segundo, você obterá nada menos que 38.212 resultados. São reportagens sobre a doença escritas nos mais diferentes países do mundo. Baseadas na crescente produção científica mundial, as informações chegam com cada vez mais frequência aos leigos. Alguns estudos são reconfortantes; outros, esperançosos. Muitos são educativos, divulgam informações importantes sobre prevenção e tratamentos. Mas alguns podem ser muito alarmistas e gerar confusão. Principalmente aqueles baseados em números, estatísticas e percentuais de risco. “A incidência de câncer de bexiga entre pessoas com menos de 30 anos aumentou 120% nos últimos dez anos”, sustenta uma manchete do tabloide britânico “Daily Mail”. Ou, no mesmo jornal, “Mulheres que usam talco todo dia têm o risco de desenvolver câncer de ovário em 40%”. O levantamento das notícias foi feito por Marianne Freiberger e Rachel Thomas, editoras da revista on-line de matemática Plus (plus.maths.org), da Universidade de Cambridge, que escreveram um artigo sobre o tema para a “Newscientist”. Números, argumentam as especialistas, em geral, agradam às pessoas. “Eles falam de fatos e certezas e da marcha da ciência. Se conseguimos colocar um número em um problema, sua extensão é conhecida e seu impacto pode ser circunscrito”, escrevem. No entanto, as sólidas certezas que costumam emanar dos números são, com frequência, ilusórias. Estatísticas, como se sabe, podem ser facilmente manipuladas. Na maioria das vezes, com boas intenções, como dar mais ênfase a um determinado tópico ou chamar atenção a um problema grave. Outras vezes, podem cair na mão de pessoas inescrupulosas ou, simplesmente, serem mal interpretadas. 25 em 100 ou 250 em mil? Na área da saúde, segundo Freiberger e Thomas, isso ocorre com mais frequência do UNIDADE 1TÓPICO 442 M É T O D O S Q U A N T I T A T I V O S que em outras áreas. E a explicação é simples: não é tão fácil assim, por exemplo, determinar os riscos ambientais a que uma pessoa está submetida. Saber exatamente que fatores podem deflagrar o desenvolvimento de um tipo específico de tumor. Determinar como exatamente uma substância age na prevenção. E mais: pessoas reagem de forma diferente aos mesmos agentes. Resumindo, a saúde está longe de ser uma ciência exata. As especialistas destacaram alguns exemplos. “O que te deixaria mais alarmado? Ler que o câncer mata 25 em 100 pessoas ou 250 em mil?” É a mesma coisa, lógico. Mas não exatamente. O cérebro humano registra com mais facilidade números maiores, números redondos: 250 tenderá sempre aparecer mais grave do que 25, como explica a gerente da Divisão de Informação em Câncer e Análise da Situação do Instituto Nacional do Câncer (Inca), Marise Rebelo, responsável pela elaboração de dados sobre a doença. – É possível criar um impacto maior ou menor, dependendo da magnitude do número que se usa – explica Marise. – Se quero causar um impacto grande, vou optar pelo número maior. O que fica para o leitor ou o telespectador é o número que está no denominador. Não se trata, necessariamente, de sensacionalismo. – Veja, tive o cuidado de não usar este termo – afirma a especialista brasileira. – Depende do veículo. Numa revista, a pessoa abre, lê, volta ao início, lê novamente. Na televisão, não tem isso: a coisa é dita uma única vez. Se quisermos criar um impacto, é preciso saber que número usar. Por exemplo, é melhor dizer que o atendimento nas Upas caiu pela metade ou em 50% do que dizer que foi reduzido de 20 para 10, não? A mensagem é mais direta. Mas a mesma estratégia pode ser usada com má fé. É o caso, por exemplo, do shampoo que exibe na embalagem a frase: 80% das mulheres que testaram o produto disseram que seus cabelos ficaram mais macios e brilhantes. Essas alegações são comuns na propaganda, mas algumas vezes podem esconder o fato de que apenas quatro pessoas fizeram o teste, por exemplo. O risco aumenta em 20% e é de 6% “Comer bacon todos os dias aumenta em 20% o risco de se desenvolver câncer de bexiga”, aponta um grande estudo realizado no Reino Unido, financiado pelo Fundo de Pesquisa de Câncer. Não se trata de questionar a veracidade do estudo, feito por cientistas sérios e organizações de peso. Os números, muito provavelmente, estão corretos. Os números, atenção, mostram o quanto o risco de alguém desenvolver um determinado tipo de câncer aumentaria em função da adoção de um hábito alimentar específico. Vale lembrar que o risco de alguém, na população em geral, sofrer de câncer de bexiga é de 5%. Portanto, UNIDADE 1 TÓPICO 4 43 M É T O D O S Q U A N T I T A T I V O S um “aumento de 20% no risco” significa que o risco absoluto de se ter a doença passa para 6% entre os fãs de bacon. Não que isso seja desprezível em se tratandode uma doença grave. – O risco de adoecer por câncer é baixo, são de 2 a 3 novos casos a cada mil habitantes por ano – explica o coordenador de Ações Estratégicas do Inca, Cláudio Noronha, responsável por campanhas de prevenção e educação. – Mas isso é uma média, que vai aumentando com a idade e varia de acordo com os fatores de risco. A gente sabe que o tabagismo responde por um terço dos casos; que alimentação e atividade física representam outro terço. Então, usar o número maior é uma forma de chamar atenção para alguns alimentos que, já se sabe, são maléficos, que podem acarretar danos se houver um consumo regular e sistemático. Essa é uma forma de fazer com que as pessoas tenham consciência, modifiquem seus hábitos e, dessa forma, prolonguem a fase saudável de sua vida, adiem o adoecimento. A televisão que pode matar Um estudo publicado na “Circulation” revelou que pessoas que passam mais de quatro horas por dia em frente à televisão têm um risco de morrer 46% mais elevado do que o daqueles que ficam menos de duas horas. Segundo especialistas, a relação pode se revelar capciosa. No máximo, pode indicar que hábitos de vida sedentários podem contribuir para problemas de saúde. Ou ainda: pessoas com a saúde mais frágil, com algum problema prévio, tenderiam a ficar mais tempo deitadas ou sentadas. E assistirem mais à TV. Ou seja, não há uma relação intrínseca direta entre a televisão e a morte de alguém. E a contextualização é importante para se interpretar qualquer estatística. – O contexto é importante em qualquer estatística, não dá para soltar números isoladamente – explica Marise. – Se eu disser que o risco de o teto da sua casa cair é de 2%, você vai ficar em casa? Mas se eu disser que o risco de a cadeira em que você está sentada quebrar é de 20%, você vai deixar de usá-la imediatamente? Então, tudo depende muito do que está em jogo. Números sozinhos não dizem nada, é preciso conversar para entender o que significam. FONTE: Disponível em: <http://extra.globo.com/noticias/saude-e-ciencia/especialistas-ensinam-como- interpretar-as-estatisticas-de-saude-1109723.html#ixzz2rz6uwkwl>. Acesso em: 31 jan. 2014. UNIDADE 1TÓPICO 444 M É T O D O S Q U A N T I T A T I V O S RESUMO DO TÓPICO 4 Neste tópico estudamos as séries estatísticas simples, de dupla entrada e os componentes de uma tabela. Mais especificamente, vimos que: • Tabelas estatísticas, ou séries estatísticas são conjuntos de dados estatísticos, associados a um fenômeno, dispostos numa ordem de classificação que deve levar em conta o fenômeno descrito (variável), onde ele foi observado e a época a que se refere. • Séries estatísticas simples são aquelas compostas por apenas duas colunas: uma destinada às categorias possíveis da variável, e a outra, aos dados propriamente ditos. • Séries históricas são séries estatísticas simples onde a variável apresentada é o tempo, enquanto o local e o fato observado permanecem fixos. • Séries geográficas são séries estatísticas simples onde a variável apresentada é o local onde o fenômeno é observado, enquanto o tempo e o fato observado permanecem fixos. • Séries geográficas são aquelas em que a variável é o fato observado, enquanto o tempo e o local onde o fenômeno é observado permanecem fixos. • As séries de dupla entrada surgem quando é interessante levar em conta mais de uma variável na tabela. • Uma tabela deve conter título, cabeçalho, coluna indicadora, corpo, traço, fonte e pode conter notas e chamadas. UNIDADE 1 TÓPICO 4 45 M É T O D O S Q U A N T I T A T I V O S AUT OAT IVID ADE � Agora vamos fixar o conteúdo que estudamos neste tópico por meio de alguns exercícios. 1 Classifique as séries estatísticas a seguir como: série numérica, série territorial, série categórica ou série mista. a) NÚMERO DE CONCESSIONÁRIAS COM TRÁFEGO PEDAGIADO POR PROGRAMA – 2013 Programa Número de concessionárias Federal 14 São Paulo 19 Paraná 6 Rio Grande do Sul 7 Pernambuco/Bahia/Espirito Santo/ Minas Gerais/Rio de Janeiro 8 FONTE: ABCR b) ESTADO GERAL DAS RODOVIAS – EXTENSÃO PÚBLICA – 2010-2013 Ano Estado Geral Ótimo Bom Regular Ruim Péssimo 2010 7,10% 25,30% 37,60% 20,50% 9,50% 2011 5,60% 28,20% 34,20% 21,50% 10,50% 2012 3,20% 24,60% 37,60% 23,80% 10,80% 2013 2,70% 24,00% 38,40% 25,30% 9,60% FONTE: ABCR Nota: Pesquisa CNT de Rodovias 2010/2011-2012-2013 c) ÍNDICE DO CUSTO DE VIDA – SEGUNDO SEMESTRE 2003 Mês Índice (%) Julho 0,35 Agosto -0,15 Setembro 1,26 Outubro 0,47 Novembro 0,26 UNIDADE 1TÓPICO 446 M É T O D O S Q U A N T I T A T I V O S Dezembro 0,32 FONTE: Portal Brasil Nota: Base de dados Portal Brasil e Fundação Getúlio Vargas d) NÍVEL DE SATISFAÇÃO COM O GOVERNO – 2001 Categoria Nível (%) Péssimo 8,10 Ruim 19,20 Regular 32,40 Bom 22,30 Muito Bom 6,60 Não souberam opinar 5,40 Não quiseram opinar 6,00 FONTE: Dados fictícios 2 Observe a série estatística a seguir e faça a correspondência entre os números e os conceitos correspondentes. ÁREA TERRITORIAL DOS ESTADOS DA REGIÃO SUL (1) Estado (2) Área (km²) (3) Paraná (4) 199.307,922 (5) Santa Catarina (6) 95.736,165 (7) Rio Grande do Sul (*) (8) 281.730,223 (9) FONTE: IBGE (10) Nota: A data da medição não foi informada. (11) (*) Inclusive 10.152,251km² e 2.811,552km² referentes às Lagoas dos Patos e Mirim, respectivamente, incorporadas à área do Estado segundo Constituição Estadual de 1988, não constituindo área municipal. (12) a) (1): b) (2), (4), (6) e (8): c) (2) e (3): d) (4): e) (4) e (5): f) (4), (6) e (8): g) De (4) a (9): h) (10): i) (11): j) (12): UNIDADE 1 TÓPICO 4 47 M É T O D O S Q U A N T I T A T I V O S AVAL IAÇà O Prezado(a) acadêmico(a), agora que chegamos ao final da Unidade 1, você deverá fazer a Avaliação referente a esta unidade. UNIDADE 1TÓPICO 448 M É T O D O S Q U A N T I T A T I V O S M É T O D O S Q U A N T I T A T I V O S UNIDADE 2 AprESENTAÇÃO DE DADOS E mEDIDAS rESUmO ObjETIvOS DE AprENDIzAgEm Nessa unidade vamos: aprender a organizar os dados coletados em uma pesquisa por meio de tabelas e gráficos; estabelecer a tabela e o gráfico mais apropriado para cada tipo de variável; entender como podemos extrair informações de tabelas e gráficos por meio das medidas resumo; definir os conceitos de assimetria e curtose e aprender a medi-las. TÓPICO 1 – DISTRIBUIÇÃO DE FREQUÊNCIA TÓPICO 2 – GRÁFICOS ESTATÍSTICOS TÓPICO 3 – MEDIDAS RESUMO – MEDIDAS DE POSIÇÃO TÓPICO 4 – MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE pLANO DE ESTUDOS A Unidade 2 está dividida em quatro tópicos, contendo exemplos e, no final de cada um deles, há exercícios para familiarizá- lo(a) com o assunto. M É T O D O S Q U A N T I T A T I V O S M É T O D O S Q U A N T I T A T I V O S DISTRIBUIÇÃO DE FREQUÊNCIA 1 INTRODUÇÃO TÓPICO 1 UNIDADE 2 Vimos na Unidade 1 que, ao fazer uma pesquisa estatística, precisamos definir as variáveis que iremos pesquisar, se iremos trabalhar com a população ou com uma amostra, e quais são os tipos de amostragem possíveis. Vimos também que as variáveis pesquisadas podem ser classificadas de acordo com suas características e que elas nos vêm em séries. Claramente, é difícil trabalhar e extrair informações de uma série, numérica ou não. Geralmente, elas são grandes listas de valores que, embora repletos de informações, não permitem que consigamos tirar quaisquer informações a respeito. Na verdade, precisamos organizar estes dados de alguma maneira, para que possamos trabalhar com eles. Vamos pensar na pesquisasobre o perfil do consumidor de determinada marca de desodorantes. Foram pesquisadas 200 pessoas e a seguir estão algumas variáveis consideradas na pesquisa. a) Gênero do consumidor: feminino ou masculino. b) Idade. c) Peso (kg). d) Altura (cm). e) Grau de instrução: fundamental, médio, superior. f) Periodicidade na prática de atividade física (por semana): 0, 1, 2, 3, 4, 5, 6, 7. Para cada pessoa entrevistada temos uma relação de seis respostas, ou seja, uma lista contendo 200 linhas com seis informações em cada linha, como a seguir: UNIDADE 2TÓPICO 152 M É T O D O S Q U A N T I T A T I V O S FIGURA 16 – DADOS COLETADOS NA PESQUISA SEXO IDADE PESO ALTURA GRAU PERIODICIDADE F 23 60,4 163 Médio 2 M 30 83,5 180 Superior 4 F 32 71,8 172 Superior 3 F 41 62,6 171 Médio 4 ... ... ... ... ... ... FONTE: A autora. Como não nos interessa muito a resposta de fulano ou beltrano, mas sim, quantos responderam uma ou outra coisa, o foco é a variável. Nenhuma conclusão poderia ser tirada de uma lista deste tamanho! Então é imprescindível que haja uma organização nestes dados, que eles sejam apresentados de forma que realmente forneçam informações. Esta apresentação pode ser feita de duas formas distintas, não excludentes – através de tabelas ou de gráficos, conforme mencionamos na unidade anterior. Neste tópico estudaremos a apresentação de dados por meio de tabelas especiais chamadas de distribuição de frequência. Vamos aprender a construir estas distribuições, levando em consideração as peculiaridades da variável envolvida. 2 DISTRIBUIÇÃO DE FREQUÊNCIA Voltemos ao exemplo proposto, onde consideramos seis variáveis: gênero, idade, peso, altura, grau de instrução e periodicidade. Cada uma destas variáveis pode ser apresentada por meio de uma tabela, relacionando as opções de respostas com o número de ocorrências de cada uma. É aconselhável a inclusão de um título sucinto na primeira linha, explicando do que trata a variável, a data e o ano da pesquisa e, no rodapé, mencionar a fonte dos dados utilizados (SILVER, 2000). Se a variável for quantitativa, devemos decidir pela precisão dos dados (arredondamento, se for o caso) e toda a tabela deve respeitar o mesmo número de casas decimais preestabelecido. Assim como nas demais séries estatísticas, as distribuições de frequência se apresentam em colunas: na primeira, constam as possibilidades de respostas para a variável, na segunda, o número de ocorrências para cada possibilidade, que recebe o nome de frequência absoluta, ou simplesmente frequência, denotadas usualmente por ni. Além destas duas colunas, algumas vezes é interessante a inclusão de uma terceira contendo as frequências relativas, que nada mais são do que quanto cada frequência representa em relação ao todo, denotadas por fi. UNIDADE 2 TÓPICO 1 53 M É T O D O S Q U A N T I T A T I V O S Vamos apresentar alguns exemplos de distribuição de frequência para entendermos tudo o que foi definido até agora. EXEMPLO 1: A tabela a seguir apresenta a variável gênero, que apresenta duas possibilidades de respostas: feminino ou masculino. TABELA 6 – EXEMPLO DE DISTRIBUIÇÃO DE FREQUÊNCIA Gênero dos usuários do desodorante X Fevereiro/2012 ni fi Feminino 98 0,49 Masculino 102 0,51 TOTAL 200 1,00 FONTE: A autora. Vamos entender melhor a tabela. Para a variável ‘gênero’, a segunda coluna nos informa que 98 pessoas responderam feminino, enquanto 102 responderam masculino, totalizando 200 pessoas. Note que a tabela nos informa que, nesta pesquisa, todas as pessoas responderam à pergunta relativa ao gênero e optaram por uma das respostas possíveis. UNI Independentemente da variável, qualquer distribuição de frequência para este exemplo deve apresentar 200 como frequência absoluta total. Vamos agora entender como a terceira coluna foi construída. De 200 pessoas, 98 se disseram do gênero feminino, então a frequência relativa observada para este gênero foi de (98/200) = 0,49. Analogamente, em 200 pessoas, 102 se declararam do gênero masculino, implicando a frequência relativa deste gênero ser de (102/200) = 0,51. Assim, o total é de UNI Independentemente da variável, qualquer distribuição de frequência deve apresentar 1 como frequência relativa total. UNIDADE 2TÓPICO 154 M É T O D O S Q U A N T I T A T I V O S Observe também que foram consideradas duas casas decimais depois da vírgula. EXEMPLO 2: A tabela a seguir fornece os resultados obtidos para a variável ‘grau de instrução’. TABELA 7 – EXEMPLO 2 PARA DISTRIBUIÇÃO DE FREQUÊNCIA Grau de instrução dos usuários do desodorante X Fevereiro/2012 ni fi Fundamental 21 0,10 Médio 92 0,46 Superior 84 0,42 Não responderam 3 0,02 TOTAL 200 1,00 FONTE: A autora. Observe que as regras de arredondamento foram utilizadas para o preenchimento desta tabela: Algumas vezes, a inclusão de uma quarta coluna na distribuição de frequência é bastante útil: trata-se da frequência acumulada. Como o próprio nome sugere, ela é obtida acumulando-se as frequências relativas. Vamos reapresentar o exemplo anterior contendo esta nova informação. EXEMPLO 3: A tabela a seguir fornece os resultados obtidos para a variável ‘grau de instrução’. UNIDADE 2 TÓPICO 1 55 M É T O D O S Q U A N T I T A T I V O S TABELA 8 – DISTRIBUIÇÃO DE FREQUÊNCIAS COM FREQUÊNCIA ACUMULADA Grau de instrução dos usuários do desodorante X Fevereiro/2012 ni Fi fai Fundamental 21 0,10 0,10 Médio 92 0,46 0,56 Superior 84 0,42 0,98 Não responderam 3 0,02 1,00 TOTAL 200 1,00 FONTE: A autora. Note que, na primeira linha, a frequência acumulada nada mais é do que a frequência relativa (não há o que acumular). Na segunda linha, a frequência acumulada é formada pela soma da frequência acumulada da linha anterior com a frequência relativa da segunda linha (0,10 + 0,46 = 0,56). A terceira frequência acumulada é construída de maneira análoga: corresponde à soma da segunda frequência acumulada com a terceira frequência relativa (0,56 + 0,42 = 0,98); a quarta frequência é, portanto, (0,98 + 0,02 = 1,00). Na verdade, frequência acumulada correspondente à última linha sempre será 1. Você consegue responder por quê? Podemos interpretar a frequência relativa da seguinte forma: • 10% das pessoas ouvidas possuem, pelo menos, nível fundamental de instrução. • Até 56% das pessoas ouvidas possuem, pelo menos, nível médio de instrução. • Até 89% das pessoas ouvidas possuem, pelo menos, nível superior de instrução. Observe que os exemplos anteriores tratavam de variáveis qualitativas. Vamos exibir uma distribuição de frequência simples de uma variável quantitativa discreta. EXEMPLO 4: A tabela a seguir apresenta os dados encontrados para a variável ‘periodicidade de atividade física’. TABELA 9 – EXEMPLO 2 DE DISTRIBUIÇÃO DE FREQUÊNCIA ACUMULADA Periodicidade de atividade física dos usuários do desodorante X Fevereiro/2012 ni fi fai 0 19 0,09 0,09 1 10 0,05 0,14 2 56 0,28 0,42 3 44 0,22 0,64 4 30 0,15 0,79 5 23 0,12 0,91 UNIDADE 2TÓPICO 156 M É T O D O S Q U A N T I T A T I V O S 6 14 0,07 0,98 7 4 0,02 1 TOTAL 200 1 FONTE: A autora. UNI Atente para as diferenças entre as séries estatísticas vistas na unidade anterior e para a distribuição de frequências. Embora a tabela contenha um número maior de linhas, tanto as variáveis qualitativas e as quantitativas discretas podem ser acomodadas facilmente em tabelas de frequência simples. No caso das variáveis quantitativas contínuas, este tipo de tabela pode não ser o mais adequado. Por exemplo, pensemos na variável peso. O fato de terem sido entrevistadas 200 pessoas abre a possibilidade de terem sido observados 200 pesos diferentes, entre 45 kge 98 kg, por exemplo! Assim, uma tabela de frequência simples não seria eficiente no sentido de resumir as informações. Para esses casos, temos a tabela de intervalos de classes. Esta tabela consiste em, ao invés de trabalharmos com todos os valores de pesos observados, trabalharmos com faixas de valores. 3 INTERVALOS DE CLASSE Quando a variável que queremos representar é uma variável quantitativa contínua ou uma variável quantitativa discreta, mas com um número muito grande de possibilidades de resposta, trabalhar com distribuição de frequências simples torna-se inadequado ou mesmo inviável. Nestes casos podemos representar estes dados de maneira resumida em uma tabela, trabalhando com intervalos numéricos, chamados de intervalos de classe. Assim, a tabela que apresentará a variável ‘peso’, ao invés de ser uma distribuição de frequência simples, será uma distribuição de intervalos de classe, onde cada um dos intervalos contém um ou mais valores observados para o peso. Vamos entender como construir estes intervalos numéricos. Conforme mencionamos, vamos supor que os dados para a variável ‘peso’ variam de 45 kg a 98 kg. O primeiro passo é decidir qual será o tamanho de cada intervalo, isto é, a amplitude do intervalo. Existem fórmulas que nos fornecem a amplitude de cada faixa. No nosso caso, não adotaremos nenhuma técnica para o cálculo desta amplitude, mas restringiremos a quantidade de faixas de 5 a 8, todas com a mesma amplitude. Assim, as tabelas ficarão com um tamanho adequado para a visualização das informações. UNIDADE 2 TÓPICO 1 57 M É T O D O S Q U A N T I T A T I V O S Para decidir então qual será a amplitude que adotaremos para nossos intervalos, consideremos a amplitude total dos dados observados: 98 – 45 = 53. Parece adequado então considerarmos intervalos com amplitude de 10 kg cada; neste caso, teremos 6 intervalos na tabela. O primeiro intervalo começará com o menor valor observado, no caso, 45. Como queremos intervalos com amplitude 10, é de se esperar que o primeiro intervalo vá de 45 kg a 55 kg. Assim, o segundo intervalo vai de 55 kg a 65 kg e assim por diante, até a última classe, que iria de 95 kg a 105 kg. Estabelecidos os intervalos, voltamos para a série numérica com os dados observados. Como o primeiro intervalo deve contemplar os dados de 45 a 55 quilogramas, contamos quantos valores se enquadram nesta situação: o número de dados será a frequência absoluta associada ao intervalo de classe de 45 a 55. O segundo intervalo deve contemplar todas as observações de 55 a 65 quilogramas, mas daí surge um problema: e se alguém pesar exatamente 55 kg? Este valor deve ser somado ao primeiro ou ao segundo intervalo? Se fizer parte dos dois intervalos, estaremos contando este dado duas vezes, ou seja, precisamos decidir em qual intervalo iremos considerá-lo. Segundo as regras do IBGE (IBGE, 1993), para resolver este impasse, vamos incluir o limite inferior dos intervalos e excluir o limite superior de cada intervalo. Isto significa que o primeiro intervalo contará com todos os dados que vão de 45 kg inclusive até o valor mais próximo possível de 55 kg, o segundo intervalo conterá os dados de 55 kg inclusive até o valor mais próximo possível de 65 kg e assim por diante. Assim, o indivíduo que pesa exatamente 55 kg não será contado no primeiro intervalo, mas sim, no segundo. Falta decidirmos como estes intervalos serão denotados na tabela de frequências. Novamente, de acordo com o IBGE, utilizaremos o símbolo ‘├ ‘. Vamos ver como ficaria então a tabela da variável ‘peso’: TABELA 10 – DISTRIBUIÇÃO DE INTERVALOS DE CLASSES Peso dos usuários do desodorante X (kg) Fevereiro/2012 ni fi fai 45 ├ 55 18 0,09 0,09 55 ├ 65 37 0,18 0,27 65 ├ 75 46 0,23 0,50 75 ├ 85 51 0,26 0,76 85 ├ 95 34 0,17 0,93 95├ 105 14 0,07 1,00 TOTAL 200 1,00 FONTE: A autora. Note que, embora mais eficiente, ao adotarmos o modelo envolvendo intervalo de classes, perdemos informação: não podemos mais precisar quantas pessoas pesam, por UNIDADE 2TÓPICO 158 M É T O D O S Q U A N T I T A T I V O S exemplo, 62 kg. Apesar da variável ‘idade’ ser quantitativa discreta nesta pesquisa, poderíamos utilizar a tabela de frequências, via intervalo de classes, se observássemos que as idades informadas variassem muito, por exemplo, de 18 a 65 anos. No exemplo anterior, embora tenhamos construído os intervalos de classe, não construímos as frequências absolutas correspondentes devido ao tamanho escolhido para nossa amostra. Vamos considerar agora uma amostra pequena, de tamanho 20, e vamos construir a distribuição de intervalo de classes para ilustrar bem este processo. EXEMPLO: Em uma sala de aula, o professor fez uma relação da altura dos estudantes da classe de 2013, obtendo os seguintes dados, em centímetros: 134 141 131 133 130 135 134 129 131 137 138 132 133 128 136 134 138 132 133 139 Embora a amostra seja pequena e a variável possa ser tratada como quantitativa discreta, os valores são bastante diferentes entre si. Se considerarmos a série numérica associada e construirmos uma distribuição de frequência simples, veremos que a tabela conterá, ao invés de 20, 14 linhas, o que é muito. Vamos então construir uma tabela de intervalos de classes. O primeiro passo é definir quantos intervalos de classe queremos construir. Para isso vamos calcular a amplitude dos dados observados: consideremos o maior valor observado (141) e o menor valor (128); a amplitude dos dados observados é de 141 – 128 = 13. Como os valores são bastante próximos uns dos outros e o tamanho da amostra é pequeno, vamos optar por 5 intervalos de classe. Queremos então construir 5 intervalos de classe de mesmo tamanho. Vamos então trabalhar com uma amplitude de tamanho 3 (Por que não 2? Por que não 4?). Primeiro intervalo: de 128 a 131. Segundo intervalo de 131 a 134. Terceiro intervalo: de 134 a 137. Quarto intervalo: de 137 a 140. Quinto intervalo: de 140 a 144. Analisando os dados observados, temos que 3 deles pertencem ao primeiro intervalo: 128, 129 e 130, cada um com uma ocorrência. O segundo intervalo contém frequência observada 7 (2 vezes 131, 2 vezes 132 e 3 vezes 133); e assim por diante. A distribuição de intervalo de classes fica da seguinte maneira: UNIDADE 2 TÓPICO 1 59 M É T O D O S Q U A N T I T A T I V O S TABELA 11 – DISTRIBUIÇÃO DE INTERVALO DE CLASSES – EXEMPLO 2 Altura dos estudantes da classe 2013 ni fi fai 128 ├ 131 3 0,15 0,15 131 ├ 134 7 0,35 0,50 134 ├ 137 5 0,25 0,75 137 ├ 140 4 0,2 0,95 140├ 144 1 0,05 1,00 TOTAL 20 1,00 FONTE: A autora. UNI Faça todos os passos do exemplo para entender o que foi feito. UNIDADE 2TÓPICO 160 M É T O D O S Q U A N T I T A T I V O S RESUMO DO TÓPICO 1 Neste tópico, aprendemos que podemos apresentar dados por meio de tabelas, mais precisamente: • A tabela resume as informações obtidas por meio da pesquisa, existentes nas séries estatísticas. • Para cada variável montamos uma tabela de frequências. • Toda tabela deve conter um título sucinto na primeira linha, explicando de que trata a variável, a data e o ano da pesquisa, e no rodapé deve mencionar a fonte dos dados apresentados (SILVER, 2000). • Precisamos decidir qual é a precisão dos dados que utilizaremos na tabela, ou seja, quantas casas decimais consideraremos na apresentação. • Estabelecemos os conceitos de frequência absoluta, frequência relativa e frequência acumulada. • Dados relacionados a variáveis qualitativas devem ser apresentados por meio de distribuição de frequência simples. • Variáveis quantitativas discretas podem ser apresentadas por meio de distribuição de frequência simples ou de distribuição de intervalo de classes, dependendo dosdados encontrados. • Dados quantitativos contínuos devem ser apresentados por meio de distribuição de intervalo de classes. • Normalmente, consideramos de 5 a 8 intervalos de classe para a construção da tabela, todos com mesmo tamanho. UNIDADE 2 TÓPICO 1 61 M É T O D O S Q U A N T I T A T I V O S AUT OAT IVID ADE � Vamos fixar os conteúdos vistos neste tópico resolvendo alguns exercícios. 1 Um banco instalou um caixa eletrônico em um posto de combustível e está observando o número de usuários que vem utilizando o serviço. Diariamente, o número de clientes que utilizou o serviço nos últimos 32 dias foi: 15 17 16 15 17 14 17 16 16 17 15 18 14 17 15 14 15 14 15 16 17 18 18 17 15 16 14 18 18 16 15 14. a) Organize uma tabela de frequências (utilize 4 casas decimais). b) Qual é a porcentagem das observações está abaixo de 16 dias? 2 Um posto de saúde de certo bairro mantém um arquivo com o número de pacientes que procuram o consultório odontológico diariamente. Os dados são os seguintes: 3, 4, 3, 4, 5, 1, 6, 3, 4, 5, 3, 4, 3, 3, 4, 3, 5, 5, 5, 5, 6, 11, 10, 2, 1, 2, 3, 1, 5, 2. Organize uma tabela de frequência. 3 (MAGALHAES, 2010) O tempo de utilização de caixas eletrônicos depende de cada usuário e das operações efetuadas. Foram coletadas 26 medidas desse tempo (minutos): 1,1 1,2 1,7 1,5 0,9 1,3 1,4 1,6 1,7 1,6 1,0 0,8 1,5 1,3 1,7 1,6 1,4 1,2 1,2 1,0 0,9 1,8 1,7 1,5 1,3 1,5 a) Organize uma tabela de frequência sem agrupar dados. b) Agrupe os dados em faixas de 0,2 minutos a partir de 0,8 e obtenha uma nova tabela de frequência. OBS.: Utilize 3 casas decimais depois da vírgula. 4 (MAGALHÃES, 2010) O valor médio de comercialização da saca de milho de 60 quilos na BM&F é apresentado a seguir, em reais, para os últimos 40 meses. UNIDADE 2TÓPICO 162 M É T O D O S Q U A N T I T A T I V O S 6,1 6,2 6,7 6,5 6,9 6,3 7,4 7,6 7,7 7,6 7,3 7,7 7,6 7,4 7,2 7,2 7,3 7,6 7,5 7,4 7,5 7,7 8,2 8,3 8,1 8,1 8,1 7,9 7,8 7,4 7,5 7,6 7,5 7,6 7,4 7,3 7,4 7,5 7,5 7,4 Organize os dados em faixas de tamanho 0,4 a partir de 6, utilizando quatro casas decimais após a vírgula. M É T O D O S Q U A N T I T A T I V O S GRÁFICOS ESTATÍSTICOS 1 INTRODUÇÃO TÓPICO 2 Nos tópicos anteriores, aprendemos a resumir os dados de uma pesquisa estatística por meio de séries, distribuição de frequência simples ou de intervalos de classes. Vimos que a escolha do tipo de tabela a ser utilizada depende das peculiaridades da variável estudada: tabelas de frequência simples são indicadas para variáveis qualitativas e variáveis quantitativas discretas, enquanto as tabelas de intervalos de classe são indicadas para variáveis quantitativas contínuas. Existe outra maneira de apresentar os dados de uma pesquisa: são os gráficos estatísticos. Enquanto a tabela sintetiza as informações, o gráfico possibilita uma visão mais ampla, inclusive a comparação entre variáveis ou dados relativos à mesma variável, coletados em períodos diferentes. Através dele, conseguimos ver mais rapidamente o comportamento da variável do que por meio da tabela. Na verdade, uma maneira de apresentação não substitui a outra, mas a complementa. A tabela é primordial: é dela que tiramos as informações para montar o gráfico, utilizando as características que queremos evidenciar; por outro lado, as tabelas carregam mais informações que os gráficos. Portanto, sempre que possível, exibimos tanto a tabela como o gráfico associado a cada variável. Na imprensa em geral, observamos o pictograma: gráfico que utiliza desenhos compatíveis com o objeto de pesquisa ou a variável retratada. UNIDADE 2 UNIDADE 2TÓPICO 264 M É T O D O S Q U A N T I T A T I V O S FIGURA 17 – EXEMPLO DE PICTOGRAMA FONTE: Disponível em: <http://universosertanejo.blogosfera.uol.com.br/2010/11/09/mais-buscados/>. Acesso em: 29 jan. 2014. A figura anterior compara os gêneros musicais mais baixados pelos brasileiros da internet em 2006. Para compor o gráfico foi utilizada a imagem de um equalizador, onde cada um dos botões representa um gênero musical e a altura em que se encontra cada botão reflete a porcentagem do gênero correspondente. Embora o pictograma passe a informação que se dispõe a passar, note que ele não informa qual é o total de dados considerados, nem como as porcentagens apresentadas foram calculadas (a soma delas é muito superior a 100%). Assim, os gráficos exigem interpretação e informações adicionais que devem ser apresentadas no corpo da pesquisa. Observe também que o gráfico possui um título e deixa clara – ainda que seja difícil visualizar no exemplo dado – a fonte dos dados. Entretanto, não é mencionado, por exemplo, o ano em que os dados foram coletados (esta informação está no corpo da reportagem). Da mesma forma que as distribuições de frequência, os gráficos devem conter algumas informações básicas: um título que deixe clara a variável apresentada, a data cujos dados se referem, a fonte dos dados e uma legenda, explicando as convenções utilizadas na confecção do gráfico (cores, retículas etc.). Essas informações ficarão mais claras no decorrer deste tópico. UNI Para mais detalhes sobre a tabulação, consulte (OLIVEIRA, 2010). Lá, você encontrará todas as especificações técnicas para a confecção de um gráfico. Embora possua grande apelo visual, o pictograma não é adequado para qualquer tipo de variável – observe que o exemplo anterior representa uma variável quantitativa discreta. UNIDADE 2 TÓPICO 2 65 M É T O D O S Q U A N T I T A T I V O S Na verdade, o pictograma é obtido a partir de outros tipos de gráficos, mais gerais, que iremos estudar a seguir. 2 TIPOS DE GRÁFICOS Assim como no caso das séries estatísticas e distribuições de frequência, cada variável pede um tipo de gráfico diferente para representá-la. 2.1 GRÁFICO DE LINHA O gráfico de linha é aquele que mais se aproxima dos gráficos que fazíamos quando estudávamos função, no ensino fundamental e médio. Ele é constituído sobre o plano cartesiano (o eixo horizontal x e o eixo vertical y) por pares de pontos (x,y), que correspondem à variável e à frequência observada e são ideais para apresentar séries históricas e séries mistas que as envolvam. Vamos ver alguns exemplos: EXEMPLO 1: voltemos para o exemplo dado na primeira unidade: TABELA 12 – SÉRIE HISTÓRICA EXTENSÃO DA REDE RODOVIÁRIA BRASILEIRA PAVIMENTADA – 1987-1992 Ano Extensão (km) 1987 128.206 1988 133.623 1989 136.647 1990 139.353 1991 139.415 1992 143.247 FONTE: Oliveira (2010, p. 14) O gráfico de linha ficará então da seguinte forma: UNIDADE 2TÓPICO 266 M É T O D O S Q U A N T I T A T I V O S FIGURA 18 – GRÁFICO DE LINHA FONTE: Oliveira (2010, p. 14) Note que o eixo das abscissas (eixo x, horizontal) corresponde ao ano, enquanto o eixo das ordenadas (eixo y, vertical) corresponde à extensão de terra. Além disso, note que a origem do plano cartesiano foi deslocada: se o primeiro ano considerado é 1987, não teria sentido começar em 0. Vamos agora exibir um exemplo envolvendo uma tabela de dupla entrada. Pela maneira como é construída esta série, podemos pensá-la como várias séries numéricas unidas na mesma tabela, e é desta forma que o gráfico de linha irá considerá-la. Assim, para cada uma das variáveis qualitativas, haverá uma linha no gráfico. EXEMPLO 2: Considere a tabela de dupla entrada dada como exemplo na unidade anterior. TABELA 13 – TABELA DE DUPLA ENTRADA TAXA DE MORTALIDADE INFANTIL, SEGUNDO AS GRANDES REGIÕES DO BRASIL – 1970- 1990 Ano Taxa de mortalidade infantil (%) Brasil Norte Nordeste Sudeste Sul C e n t r o - Oeste 1970 115,0 104,3 146,4 96,2 81,9 89,71975 100,0 94,0 128,0 86,0 72,0 77,0 1980 82,8 79,4 117,6 57,0 58,9 69,6 1985 62,9 60,8 93,6 42,6 39,5 47,1 1990 48,3 44,6 74,3 33,6 27,4 31,2 FONTE: IBGE (1993) UNIDADE 2 TÓPICO 2 67 M É T O D O S Q U A N T I T A T I V O S O gráfico de linha ficará da seguinte forma: FIGURA 19 – GRÁFICO DE LINHA PARA SÉRIE LISTA FONTE: IBGE (1993) O exemplo a seguir mostra um gráfico de linha vinculado na imprensa há alguns meses, sobre a cotação do dólar: FIGURA 20 – EXEMPLO DE GRÁFICO DE LINHA VINCULADO NA IMPRENSA FONTE: Disponível em: <http://g1.globo.com/economia/>. Acesso em: 29 jan. 2014. UNIDADE 2TÓPICO 268 M É T O D O S Q U A N T I T A T I V O S 2.2 GRÁFICO DE COLUNAS OU BARRAS Para representar as variáveis qualitativas ordinais ou variáveis discretas, o gráfico de colunas (ou barras) é bastante indicado. Assim, é ideal para séries territoriais, séries categóricas. Ele consiste em representarmos a frequência absoluta da variável por meio de colunas (ou barras). EXEMPLO: Consideremos a tabela estatística a seguir: TABELA 14 – PESSOAS COM MAIS DE 15 ANOS EM ESTADOS PRÉ- SELECIONADOS – 2008 Ano Número de pessoas Amazonas 2.279.811 Paraíba 2.823.492 São Paulo 31.825.460 Rio Grande do Sul 8.397.355 Mato Grosso 2.266.442 Distrito Federal 1.931.019 FONTE: IBGE (1993) O gráfico de colunas que representa esta situação é o seguinte: FIGURA 21 – GRÁFICO DE COLUNA PARA SÉRIE TERRITORIAL FONTE: IBGE (1993) Observe como fica mais simples comparar as quantidades por meio do gráfico. Note também que, para despoluir a imagem, optamos por exibir a quantidade de pessoas em milhões. UNIDADE 2 TÓPICO 2 69 M É T O D O S Q U A N T I T A T I V O S EXEMPLO 2: FIGURA 22 – GRÁFICO DE BARRAS NA IMPRENSA FONTE: Disponível em: <http://datafolha.folha.uol.com.br/>. Acesso em: 29 jan. 2014. É possível utilizar o gráfico de barras para séries mistas também. Observe no exemplo a seguir que o gráfico compara o percentual do Produto Interno Bruto relacionado ao crédito imobiliário, direcionado e crédito livre em diferentes anos. FIGURA 23 – EXEMPLO DE GRÁFICO COM VÁRIAS COLUNAS FONTE: Disponível em: <http://www.politicaeconomia.com/2012/06/bolha-imobiliaria-saques-do-fgts- batem.html>. Acesso em: 29 jan. 2014. UNIDADE 2TÓPICO 270 M É T O D O S Q U A N T I T A T I V O S Nesta imagem, as três colunas estão sobrepostas, mas poderiam estar lado a lado. Observe: FIGURA 24 – GRÁFICO COM MÚLTIPLAS COLUNAS FONTE: IBGE (1993) UNI O gráfico de barras é similar ao de colunas: a diferença está no sentido da imagem: enquanto um cresce verticalmente, o outro cresce horizontalmente. 2.3 GRÁFICO DE SETORES O gráfico de setores é também conhecido como gráfico de pizza. Trata-se de um círculo dividido por fatias cujos ângulos internos são proporcionais às partes envolvidas. Neste gráfico, trabalhamos com proporcionalidades, ou seja, com frequências relativas. Assim, ele é indicado para variáveis qualitativas, desde que suas séries não possuam muitas linhas. Vamos aos exemplos: EXEMPLO 1: Voltemos ao exemplo utilizado para séries categóricas na unidade anterior. UNIDADE 2 TÓPICO 2 71 M É T O D O S Q U A N T I T A T I V O S TABELA 15 – EXTENSÃO DA MALHA RODOVIÁRIA BRASILEIRA POR ÓRGÃO DE ADMINISTRAÇÃO – 2013 Órgão Extensão (km) Municipal 175.822,19 Estadual 22.101,62 Federal 1.055,82 FONTE: DER O primeiro passo é construir a distribuição de frequência desta tabela. TABELA 16 – EXTENSÃO DA MALHA RODOVIÁRIA BRASILEIRA POR ÓRGÃO DE ADMINISTRAÇÃO – 2013 Órgão ni fi Municipal 175.822,19 0,8836 Estadual 22.101,62 0,1111 Federal 1.055,82 0,0053 TOTAL 198.979,63 1,0000 FONTE: DER Note que as porcentagens associadas a cada linha correspondem à multiplicação da frequência relativa por 100. E como vamos saber qual é o ângulo interno de cada fatia associada ao órgão em questão? Basta multiplicar as frequências relativas por 360º. Assim, temos TABELA 17 – EXTENSÃO DA MALHA RODOVIÁRIA BRASILEIRA POR ÓRGÃO DE ADMINISTRAÇÃO – 2013 Órgão Extensão (%) Ângulo interno Municipal 88,36 318,1º Estadual 11,11 4,0º Federal 5,3 1,9º FONTE: DER Assim, o gráfico de setores que apresenta esta tabela é dado por: UNIDADE 2TÓPICO 272 M É T O D O S Q U A N T I T A T I V O S FIGURA 25 – EXEMPLO GRÁFICO DE SETORES FONTE: DER EXEMPLO 2: O mesmo gráfico pode aparecer no formato de rosca (gráfico de rosca). Note que é o mesmo gráfico! FIGURA 26 – EXEMPLO GRÁFICO DE SETORES FONTE: DER EXEMPLO 3: Na figura a seguir, temos um exemplo do gráfico de setores no formato “rosca” presente na imprensa. UNIDADE 2 TÓPICO 2 73 M É T O D O S Q U A N T I T A T I V O S FIGURA 27 – EXEMPLO GRÁFICO DE SETORES FONTE: Disponível em: <http://www.istoe.com.br>. Acesso em: 29 jan. 2014. 2.4 OUTROS TIPOS DE GRÁFICOS Existem vários outros tipos de gráfico que, em geral, são tipos particulares dos que vimos anteriormente. Exemplos destes gráficos são os estereogramas, versões dos gráficos de setores ou de colunas em três dimensões. EXEMPLO: O estereograma a seguir se refere ao número de crianças que tem acesso à coleta sanguínea em até sete dias depois do nascimento. FIGURA 28 – EXEMPLO DE ESTEREOGRAMA EM PIZZA FONTE: Disponível em: <http://www.brasil.gov.br/>. Acesso em: 29 jan. 2014. UNIDADE 2TÓPICO 274 M É T O D O S Q U A N T I T A T I V O S FIGURA 29 – EXEMPLO DE ESTEREOGRAMA EM COLUNAS FONTE: Disponível em: <http://www.cetsp.com.br>. Acesso em: 29 jan. 2014. O pictograma é outro gráfico que é originado, frequentemente, dos gráficos de coluna ou barra. Observe: FIGURA 30 – EXEMPLO DE PICTOGRAMA FONTE: Jornal O Globo. Disponível em: <https://lh5.ggpht.com/ hiZCA9ULV7Urieg3aXnMYuCs92Umn-ol-0Fu5emt9c2OJnIoVyz5bFanbgS gi3XLE5r-=s93>. Acesso em: 5 fev. 2014. UNIDADE 2 TÓPICO 2 75 M É T O D O S Q U A N T I T A T I V O S Há outros tipos de gráficos, menos usuais. Não entraremos em detalhes neste texto, mas, caso você tenha interesse, consulte (OLIVEIRA, 2010). Os gráficos que apresentamos podem ser utilizados para apresentar variáveis qualitativas e variáveis quantitativas discretas, entretanto, nenhum deles é adequado para variáveis quantitativas contínuas. No próximo tópico, aprenderemos a representar graficamente este tipo de variável, seja por meio do histograma, seja por meio do box plot. UNIDADE 2TÓPICO 276 M É T O D O S Q U A N T I T A T I V O S RESUMO DO TÓPICO 2 Vamos, a seguir, relembrar brevemente o que vimos neste tópico. • O gráfico é uma maneira de proporcionar uma visão mais ampla do comportamento da variável estudada, da comparação entre variáveis ou dados relativos à mesma variável, coletados em períodos diferentes. • Todo gráfico deve possuir um título, a data cujos dados se referem à fonte dos dados e uma legenda, explicando as convenções utilizadas na confecção do gráfico. • O gráfico de linha é ideal para apresentar séries históricas e séries mistas que as envolvam. • Para representar as variáveis qualitativas ordinais ou variáveis discretas, o gráfico de colunas (ou barras) é bastante indicado. Assim, é ideal para séries territoriais, séries categóricas. • O gráfico de setores, ou gráfico de pizza, trabalha com frequências relativas, sendo indicado para variáveis qualitativas, desde que suas séries não possuam muitas linhas. • O estereograma é uma versão do gráfico de setores ou do gráfico de pizza em três dimensões. UNIDADE 2 TÓPICO 2 77 M É T O D O S Q U A N T I T A T I V O S AUT OAT IVIDADE � Vamos fixar os conteúdos vistos neste tópico, através de alguns exercícios. 1 Considere as seguintes tabelas. Qual é o gráfico mais indicado para uma das situações? a) GRAU DE INSTRUÇÃO DOS USUÁRIOS DO DESODORANTE X - FEVEREIRO 2012 Grau de instrução Número de usuários Fundamental 21 Médio 92 Superior 84 Não responderam 3 FONTE: Dados fictícios b) PERIODICIDADE DE ATIVIDADE FÍSICA DOS USUÁRIOS DO DESODORANTE X - FEVEREIRO 2012 Peridiocidade Número de usuários 0 19 1 10 2 56 3 44 4 30 5 23 6 14 7 4 FONTE: Dados fictícios c) USO DE UM PRODUTO EM DETERMINADA SEMANA NA INGLATERRA Região Taxa de mortalidade infantil (%) Não usou Usou uma vez Usou mais de uma vez Norte 20 40 60 Central 60 35 35 Sul 100 60 20 UNIDADE 2TÓPICO 278 M É T O D O S Q U A N T I T A T I V O S Escócia 10 15 10 País de Gales 25 30 30 FONTE: Silver (2000) 2 Trace o gráfico de linha baseado na tabela a seguir a) MÉDIA MENSAL DA PRODUÇÃO BRASILEIRA DE CARVÃO BETUMINOSO – 1965-1972 Ano Produção (mil toneladas) 1965 45 1966 50 1967 70 1968 80 1969 130 1970 150 1971 200 1972 210 FONTE: Oliveira (2010) 3 Trace o gráfico de setores baseado na tabela a seguir: ESTIMATIVAS POPULACIONAIS DO BRASIL – GRANDES REGIÕES – 2000 Região População Norte 12.900.704 Nordeste 47.741.711 Sudeste 72.412.411 Sul 25.107.616 Centro-Oeste 11.636.728 FONTE: CASTANHEIRA, 2008 4 (CRESPO, 2005) Represente a tabela por meio de um gráfico de colunas múltiplas PROPORÇÃO DOS DOMICÍLIOS POR CONDIÇÃO DE OCUPAÇÃO BRASIL 1990-1991 Anos Natureza Próprios (%) Alugados (%) Cedidos (%) 1990 62,7 22,9 14,4 1991 70,3 16,5 13,2 FONTE: IBGE M É T O D O S Q U A N T I T A T I V O S MEDIDAS RESUMO – MEDIDAS DE POSIÇÃO 1 INTRODUÇÃO TÓPICO 3 Vamos voltar um pouco na matéria, na primeira parte, quando vimos como sistematizar as informações coletadas em uma pesquisa estatística. Vimos que os dados colhidos podiam ser apresentados em tabelas ou gráficos, facilitando assim o entendimento do que foi observado. Nosso interesse agora será resumir estas informações através de algumas medidas: as chamadas medidas resumo. Podemos dividir as medidas resumo em medidas de posição e medidas de dispersão. UNIDADE 2 2 MEDIDAS DE POSIÇÃO Suponha que você está indo pela primeira vez consultar determinado dentista. Ao chegar lá, observa que, embora seu horário esteja se aproximando, há uma quantidade razoável de pessoas na sala de espera, ou seja, a consulta irá atrasar. Como você é uma pessoa ocupada e sabe que vai ter que voltar lá inúmeras vezes, gostaria de ter uma ideia do quanto as consultas costumam atrasar. Então, você resolve perguntar para a secretária a respeito. Ao perguntar isso, nem passa pela sua cabeça que a secretária vá lhe fornecer uma lista com todos os atrasos para aquele horário no último ano ou mês. Na verdade, ela vai lhe dar uma única informação que vai fazer com que você tenha sua pergunta razoavelmente respondida. Essa é a ideia das medidas de posição, ou medidas de tendência central para um conjunto de dados qualquer. Suponhamos que o dentista também esteja atento a esta questão e resolveu pedir para sua secretária anotar a quantidade de minutos que cada paciente tem que esperar para ser atendido. No dia anterior a sua consulta, por exemplo, foram atendidas 20 pessoas, e os atrasos observados (em minutos) foram os seguintes: UNIDADE 2TÓPICO 380 M É T O D O S Q U A N T I T A T I V O S 10 15 8 15 22 15 30 21 15 18 33 42 45 22 15 18 22 25 18 22 Vamos partir destes valores para entender o significado de cada medida de posição que apresentaremos a seguir. 2.1 MÉDIA ARITMÉTICA A média aritmética é uma medida de posição para variáveis quantitativas, e é obtida somando-se todos os valores observados e dividindo-se o resultado pelo número de observações. Formalmente, se X for uma variável com observações chamamos de média de X à soma dos valores dividida pelo número de observações, ou seja, Vamos calcular o tempo médio de espera no dentista? A variável em questão é o tempo de espera, em minutos, e o número de observações é n = 20. Assim, Portanto, o tempo médio de espera no dentista naquele dia foi de 21,55min. Observe que o valor encontrado para a média não foi observado: de acordo com os dados obtidos pela secretária, ninguém esperou 21,55min naquele dia! Na verdade, o valor médio não precisa ser igual a um dos dados observados na pesquisa. Para calcularmos o tempo médio de atraso, realizamos uma soma com 20! Uma maneira mais eficiente de calcular a média é através da distribuição de frequências. Neste caso poderemos agrupar os dados que aparecem mais de uma vez. Vamos montar a tabela para o nosso exemplo: UNIDADE 2 TÓPICO 3 81 M É T O D O S Q U A N T I T A T I V O S TABELA 18 – EXEMPLO DE MEDIDAS RESUMO ATRASO NO DENTISTA NO DIA ‘A’ - 2014 Tempo (min) ni 8 1 10 1 15 5 18 3 21 1 22 4 25 1 30 1 33 1 42 1 45 1 TOTAL 20 FONTE: A autora. Assim, ao invés de somarmos 20 + 20 + 20 + 20, fazemos 4×20. Desta forma, ao invés de realizarmos uma soma com 20 parcelas, faremos uma soma com 11 parcelas! Podemos então reenunciar a definição de média aritmética da seguinte maneira: se X for uma variável com observações cujas frequências observadas são respectivamente, com calculamos a média de X como EXEMPLO 2: Considere a seguinte tabela estatística: TABELA 19 – NÚMERO DE VESTIBULARES PRESTADOS ANTES DA APROVAÇÃO N ú m e r o d e vestibulares ni 0 28 1 54 2 40 3 10 4 8 TOTAL 140 FONTE: A autora. UNIDADE 2TÓPICO 382 M É T O D O S Q U A N T I T A T I V O S Vamos calcular a quantidade média de vestibulares prestados. Note que, se os dados não estivessem agrupados, o trabalho seria razoável, pois o número de dados observados é de 140. Entretanto, como os dados estão agrupados na tabela de frequência, temos uma soma com 5 parcelas. Vamos criar uma coluna auxiliar na tabela para facilitar o trabalho. Observe: TABELA 20 – COLUNA AUXILIAR NA TABELA DE FREQUÊNCIA xi Ni 0 28 0∙28 = 0 1 54 1∙54 = 54 2 40 2∙40 = 80 3 10 3∙10 = 30 4 8 4∙8 = 32 TOTAL 140 196 FONTE: A autora. Assim, calcular a média se resume a tomarmos a razão 196/140 = 1,4. E se a variável for quantitativa contínua? Se os dados não estiverem agrupados, basta aplicar a definição de média: somarmos todos os dados observados e dividir pela quantidade de dados observados. Mas e se os dados estiverem agrupados em uma distribuição de frequência? EXEMPLO: Considere a tabela de distribuição de frequência a seguir. TABELA 21 – DISTRIBUIÇÃO DE INTERVALOS DE CLASSE Altura dos estudantes da classe 2013 ni 128 ├ 131 3 131 ├ 134 7 134 ├ 137 5 137 ├ 140 4 140├ 144 1 TOTAL 20 FONTE: A autora. UNIDADE 2 TÓPICO 3 83 M É T O D O S Q U A N T I T A T I V O S Sabemos que há 3 estudantes na classe com altura entre 128 cm e 131 cm, mas não sabemos quantos medem, exatamente, 128 cm, ou 129 cm. Para calcular a média, neste caso, precisamos eleger um representante para cada classe, um número que utilizaremos para realizar os cálculos, no caso, o ponto médio do intervalo (OLIVEIRA, 2010). Depois, basta proceder como anteriormente. TABELA 22 – ALTURA DOS ESTUDANTES DA CLASSE 2013 xi ni 128 ├ 131 129,5 3 388,5 131 ├ 134 132,5 7 927,5 134 ├ 137 135,5 5 677,5 137 ├ 140 138,5 4 554 140├ 144 141,5 1 141,5 TOTAL 20 2689 FONTE: A autora. Logo, a altura média dos estudantes da classe em 2013 foi de 2689/20 = 134,45cm. 2.2 MODA Outra medida de posição bastante utilizada é a moda. Dada uma variável X, a moda mo(X) consiste no valor mais frequente na observação, isto é, no valor quemais aparece. Mais uma vez, a distribuição de frequências pode nos auxiliar na tarefa. Voltemos ao exemplo do dentista. TABELA 23 – EXEMPLO DE MEDIDAS RESUMO ATRASO NO DENTISTA NO DIA ‘A’ - 2014 Tempo (min) ni 8 1 10 1 15 5 18 3 21 1 22 4 25 1 30 1 33 1 UNIDADE 2TÓPICO 384 M É T O D O S Q U A N T I T A T I V O S 42 1 45 1 TOTAL 20 FONTE: A autora. Note que o valor que mais foi observado, isto é, o valor cuja frequência absoluta é maior, é o de 15min. Assim, a moda de atraso naquele dia foi de 15min (mo(X) = 15). Observe agora a seguinte tabela: TABELA 24 – NÚMERO DE CASOS DE CÂNCER EM PARENTES PRÓXIMOS Incidência ni 0 4 1 4 2 6 3 6 4 2 5 4 TOTAL 26 FONTE: A autora. Ao procurarmos a moda para esta variável, notamos que há duas modas: 2 e 3 (a frequência absoluta de ambos é 6). Neste caso, dizemos que a variável é bimodal. mo(X) = 2 e 3 Assim, é possível que uma variável possua várias modas, isto é, ela pode ser multimodal. No caso de distribuições envolvendo intervalos de classe, a ideia é proceder do mesmo modo que no caso do cálculo da média. Na Tabela 22, percebemos a maior frequência observada é 7, e a classe modal correspondente é 131 ├ 134. Como estamos interessados em um valor para a moda, tomamos a média entre os dois valores, isto é, mo(X) = 132,5. 2.3 MEDIANA Se X for uma variável com observações denominamos mediana (md(X)) deste conjunto de observações o valor que ocupa a posição central dos dados ordenados. Suponhamos que uma pesquisa estatística tenha retornado os seguintes valores: UNIDADE 2 TÓPICO 3 85 M É T O D O S Q U A N T I T A T I V O S 3 4 2 5 1 7 5 2 1 O primeiro passo para encontrarmos a mediana é ordenar os dados: 1 1 2 2 3 4 5 5 7 Feita a ordenação, vamos procurar o valor que ocupa a posição central. São 9 observações, e o ponto central é o que ocupa a quinta posição, no caso, md(X) = 3. 1 1 2 2 3 4 5 5 7 No caso do exemplo do dentista, temos um problema: são 20 observações, ou seja, dois dados ocupam a posição central – o que ocupa a décima e a décima primeira posição. 8 10 15 15 15 15 15 18 18 18 21 22 22 22 22 25 30 33 42 45 Isso ocorre porque o número de observações é par: quando o número de observações é par, tomamos a média aritmética entre os valores, no caso, (18 + 21)/2 = 19,5. Portanto, a mediana de atraso no dentista é 19,5min. Quando os dados estão agrupados, a frequência acumulada pode ajudar. Observe: TABELA 25 – DADOS AGRUPADOS xi ni fi fai 1 2 0,2222 0,2222 2 2 0,2222 0,4444 3 1 0,1111 0,5556 4 1 0,1111 0,6667 5 2 0,2222 0,8889 7 1 0,1111 1,0000 TOTAL 26 1,0000 FONTE: A autora. Se queremos a posição central, na verdade, queremos o ponto que divide a amostra: 50% dos valores precisam ser menores do que ele, 50% dos valores precisam ser maiores do que ele. Na tabela anterior, a frequência acumulada nos diz que: • 22,22% da amostra correspondem ao valor 1. • 44,44% da amostra correspondem no máximo a 2. • 55,56% da amostra correspondem no máximo a 3. Aqui podemos parar. Pelo que é dito acima, menos de 50% da amostra corresponde a até 2, mas 55,56% já corresponde a 3 – passou de 50%. Portanto, o valor que ocupa a posição central na tabela é o 3 (o dado que divide a amostra em duas partes de mesmo tamanho vale 3), ou seja, md(X) = 3. EXEMPLO 2: Vamos calcular a mediana da tabela a seguir: UNIDADE 2TÓPICO 386 M É T O D O S Q U A N T I T A T I V O S TABELA 26 – NÚMERO DE CASOS DE CÂNCER EM PARENTES PRÓXIMOS Incidência ni fi fai 0 4 0,1538 0,1538 1 4 0,1538 0,3077 2 6 0,2308 0,5385 3 6 0,2308 0,7692 4 2 0,0769 0,8462 5 4 0,1538 1,0000 TOTAL 26 1,0000 FONTE: A autora. Se queremos a posição central, na verdade, queremos o ponto que divide a amostra: 50% dos valores precisam ser menores do que ele, 50% dos valores precisam ser maiores do que ele. Na tabela anterior, a frequência acumulada nos diz que: • 15,38% das pessoas não têm casos de incidência de câncer na família. • 30,77% das pessoas têm, pelo menos, um caso de câncer na família. • 53,85% das pessoas têm, pelo menos 2 casos de câncer na família. Aqui podemos parar. Pelo que é dito acima, menos de 50% da amostra corresponde a até 1 caso de câncer, mas 53% já correspondem a 2 casos. Neste caso, o ponto que corresponde a exatamente 50% vale 2: a mediana de casos de incidência na família das pessoas é 2 (md(X) = 2). EXEMPLO 2: Voltemos ao exemplo do dentista. TABELA 27 – ATRASO NO DENTISTA NO DIA ‘A’ - 2014 Tempo (min) ni fi fai 8 1 0,05 0,05 10 1 0,05 0,10 15 5 0,25 0,35 18 3 0,15 0,50 21 1 0,05 0,55 22 4 0,20 0,75 25 1 0,05 0,80 30 1 0,05 0,85 33 1 0,05 0,90 42 1 0,05 0,95 45 1 0,05 1,00 TOTAL 20 1,00 FONTE: A autora. Neste caso temos uma particularidade: até 50% da amostra corresponde a, no máximo, 18. Isso significa que os outros 50% correspondem a no mínimo 21. Neste caso, tomamos UNIDADE 2 TÓPICO 3 87 M É T O D O S Q U A N T I T A T I V O S TABELA 27 – ATRASO NO DENTISTA NO DIA ‘A’ - 2014 a média aritmética entre os dois valores: md(X) = (18 + 21)/2 = 19,5, exatamente o que encontramos analisando os dados não agrupados. Falta analisarmos a distribuição com intervalos de classe. Neste tipo de distribuição temos um problema: como saber quem exatamente ocupa a posição central? Observe: TABELA 28 – ALTURA DOS ESTUDANTES DA CLASSE 2013 ni fi fai 128 ├ 131 2 0,10 0,10 131 ├ 134 7 0,35 0,45 134 ├ 137 6 0,30 0,75 137 ├ 140 4 0,20 0,95 140 ├ 144 1 0,05 1,00 TOTAL 20 1,00 FONTE: A autora. Na tabela anterior, a frequência acumulada nos diz que • 10% dos estudantes medem entre 128 e 131 centímetros. • 45% dos estudantes medem entre 128 e 134 centímetros. • 75% dos estudantes medem entre 128 e 137 centímetros. Claramente, a mediana pertence à terceira classe: de 134 a 137 centímetros. Mas qual dos 6 integrantes da classe ocupa a posição central? Já sabemos que 45% dos estudantes medem menos que 134 cm: precisamos quem ocupa a posição 50%, ou seja, quem corresponde a 5% no intervalo (50% - 45%): Se (137 – 134) cm correspondem a 30%, quantos centímetros correspondem a 5%? 3 cm - 30% x - 5% Portanto, 5% correspondem a 0,5cm. Logo a mediana será 128 + 0,5 = 128,5cm. EXEMPLO 2: Consideremos a tabela a seguir, que se refere ao volume de vendas de uma empresa ABC durante 2013. UNIDADE 2TÓPICO 388 M É T O D O S Q U A N T I T A T I V O S TABELA 29 – VOLUME DE VENDAS DE UMA EMPRESA ABC Vendas (mil reais) ni fi fai 15 ├ 25 143 0,3972 0,3972 25 ├ 35 142 0,3944 0,7917 35 ├ 45 56 0,1556 0,9472 45 ├ 55 19 0,0528 1,0000 TOTAL 360 1,0000 FONTE: A autora. Na tabela anterior, a frequência acumulada nos diz que • 39,72% das vendas foram de 15 a 25 mil reais. • 79,17% das vendas foram de 25 a 35 mil reais. Claramente a mediana pertence à segunda classe: de 25 a 35. Mas qual das 142 vendas ocupa a posição central da amostra? Já sabemos que 39,72% das vendas foram de menos de 25 mil reais: precisamos encontrar quem corresponde a (50% - 39,72%) = 10,28% na segunda classe: Se (35 – 25) = 10 correspondem a 39,44%, quanto corresponde a 10,28%? 10 - 39,44% x - 10,28% Portanto, a venda cujo valor é 25 + 2,606 = 27,606 mil reais corresponde à mediana. Note que cada medida de posição traz uma informação diferente. Assim, elas podem ser apresentadas juntas, para auxiliar na análise dos dados, ou pode ser apresentada a mais conveniente para aquela pesquisa. Por exemplo, no caso do dentista, saber a mediana não vai me ajudar muito. Talvez, a medida mais interessante neste caso seria a moda de atrasos, uma vez que a média seria muito afetada por valores discrepantes (45 min de atraso, porexemplo). UNI A média, a moda e a mediana podem resultar em valores próximos ou não, dependendo do comportamento da distribuição de frequências. UNIDADE 2 TÓPICO 3 89 M É T O D O S Q U A N T I T A T I V O S Segundo Novaes e Coutinho (2009, p. 92), a média “é a medida mais utilizada nos cálculos estatísticos mais complexos por ser mais robusta do ponto de vista matemático”, uma vez que leva em conta todos os valores da distribuição em seu cálculo e, consequentemente, as discrepâncias entre eles. Por outro lado, não faz sentido calcular média para variáveis qualitativas. Quando existem valores muito discrepantes na amostra, é interessante utilizar a mediana no lugar da média, pois ela retorna o valor central da amostra em relação a variáveis quantitativas. Já a moda é a única medida que pode ser utilizada para qualquer tipo de variável, uma vez que exige apenas uma contagem de frequências. O exemplo a seguir ilustra bem a diferença entre as três medidas de posição. EXEMPLO: (Adaptado de MAGALHÃES, 2010) Suponhamos que você esteja procurando um estágio para o próximo ano. As companhias A e B têm programas de estágios e oferecem uma remuneração por 20 horas semanais com as seguintes características: Companhia A B Média 2,5 2,0 Mediana 1,7 1,9 Moda 1,5 1,9 Qual é a companhia mais adequada? Para responder à pergunta, vamos interpretar esta tabela. A companhia A tem uma média salarial de 2,5 salários mínimos, entretanto, 50% dos seus estagiários recebe até 1,7 salários mínimos: a maioria recebe 1,5 salários. Isso significa que, entre os outros 50%, deve haver uns poucos estagiários que ganham um salário bem acima disto (já que estão puxando a média salarial para cima). Já na companhia B, os salários são mais equânimes. Assim, a sua decisão deve se basear na sua qualificação. Se for bem qualificado, você deve optar pela companhia A, pois existe a possibilidade de ter um ganho bem acima da maioria. Entretanto, se sua qualificação for igual ou menor do que a dos outros estudantes, a companhia B é a escolha mais acertada. 2.4 SEPARATRIZES Assim como fizemos para encontrar a mediana, podemos encontrar outras medidas que separam a amostra em partes: são chamadas de separatrizes. As mais conhecidas são os UNIDADE 2TÓPICO 390 M É T O D O S Q U A N T I T A T I V O S quartis, os decis e os percentis. A maneira de calcular as separatrizes é similar a de calcular a mediana: na verdade, a mediana é uma separatriz, pois ela separa a amostra em duas partes de mesmo tamanho. QUARTIS Os quartis são utilizados para separar a amostra ordenada em quartes partes iguais. FIGURA 31 – QUARTIS FONTE: A autora. Assim, o primeiro quartil (Q1) separa as 25% primeiras observações das 75% restantes, o segundo quartil (Q2) separa as 50% primeiras observações das 75% restantes (exatamente o que a mediana faz) e o terceiro quartil (Q3) separa as 75% primeiras observações das 25% restantes. Vamos calcular os quartis em dois exemplos, uma distribuição de frequência simples e uma distribuição em intervalos de classe. EXEMPLO 1: TABELA 30 – NÚMERO DE CASOS DE CÂNCER EM PARENTES PRÓXIMOS Incidência ni fi fai 0 4 0,1538 0,1538 1 4 0,1538 0,3077 2 6 0,2308 0,5385 3 6 0,2308 0,7692 4 2 0,0769 0,8462 5 4 0,1538 1,0000 TOTAL 26 1,0000 FONTE: A autora. Com base na coluna com as frequências acumuladas, notamos que: • 15,38% primeiros não possuem incidência de câncer. • 30,77% primeiros possuem até um caso de incidência de câncer (Q1). • 53,85% primeiros possuem até dois casos de incidência de câncer (Q2). • 76,92% primeiros possuem até três casos de incidência de câncer (Q3). UNIDADE 2 TÓPICO 3 91 M É T O D O S Q U A N T I T A T I V O S Portanto, Q1= 1, Q2= 2 e Q3= 3. EXEMPLO 2: TABELA 31 – VENDAS Vendas (mil reais) ni fi fai 15 ├ 25 143 0,3972 0,3972 25 ├ 35 142 0,3944 0,7917 35 ├ 45 56 0,1556 0,9472 45 ├ 55 19 0,0528 1,0000 TOTAL 360 1,0000 FONTE: A autora. Na tabela anterior, a frequência acumulada nos diz que • 39,72% das vendas foram de 15 a 25 mil reais. • 79,17% das vendas foram de 25 a 35 mil reais. Claramente, o primeiro quartil está no primeiro intervalo. Assim, (25 – 15) = 10 - 39,72% x - 25% Assim, o primeiro quartil corresponde a 15+6,294 = 21,294 mil reais. O segundo quartil está no segundo intervalo (até já o calculamos). O primeiro já contém 39,72% das vendas. Assim, precisamos calcular (35 – 25) = 10 - 39,44% x - (50% - 39,72%) Assim, o segundo quartil corresponde a 25 + 2,606 = 27,606 mil reais. O terceiro quartil também está no terceiro intervalo (a frequência acumulada é superior a 75%). Então precisamos calcular (35 – 25) = 10 - 39,44% x - (75% - 39,72%) UNIDADE 2TÓPICO 392 M É T O D O S Q U A N T I T A T I V O S Assim, Q2 = 25 + 8,945 = 33,945 mil reais. DECIS Os decis são utilizados para separar a amostra ordenada em dez partes iguais. FIGURA 32 – DECIS NA AMOSTRA FONTE: A autora. Assim, o primeiro decil (D1) separa as 10% primeiras observações das 90% restantes, o segundo decil (D2) separa as 20% primeiras observações das 80% restantes e assim por diante. Vamos calcular o quarto decil para os dois exemplos anteriores. EXEMPLO 1: TABELA 32 – NÚMERO DE CASOS DE CÂNCER EM PARENTES PRÓXIMOS Incidência ni fi fai 0 4 0,1538 0,1538 1 4 0,1538 0,3077 2 6 0,2308 0,5385 3 6 0,2308 0,7692 4 2 0,0769 0,8462 5 4 0,1538 1,0000 TOTAL 26 1,0000 FONTE: A autora. Com base na coluna com as frequências acumuladas, notamos que: • 15,38% primeiros não possuem incidência de câncer. • 30,77% primeiros possuem até um caso de incidência de câncer. • 53,85% primeiros possuem até dois casos de incidência de câncer (D4). Portanto, D4 = 2. EXEMPLO 2: UNIDADE 2 TÓPICO 3 93 M É T O D O S Q U A N T I T A T I V O S TABELA 33 – VENDAS Vendas (mil reais) ni fi Fai 15 ├ 25 143 0,3972 0,3972 25 ├ 35 142 0,3944 0,7917 35 ├ 45 56 0,1556 0,9472 45 ├ 55 19 0,0528 1,0000 TOTAL 360 1,0000 FONTE: A autora. Na tabela anterior, a frequência acumulada nos diz que • 39,72% das vendas foram de 15 a 25 mil reais. • 79,17% das vendas foram de 25 a 35 mil reais. Assim, o quarto decil está no segundo intervalo (por pouco, mas está). Neste caso, precisamos calcular quanto equivale, dentro do intervalo, a 40% - 39,72% = 0,28%. (35 – 25) = 10 - 39,72% x - 0,28% Assim, D4 = 25 + 0,070 = 25,071 mil reais. PERCENTIS Os percentis são utilizados para separar a amostra ordenada em cem partes iguais. Assim, o primeiro percentil (C1) separa as 1% primeiras observações das 99% restantes, o segundo percentil (C2) separa as 2% primeiras observações das 98% restantes e assim por diante. Vamos calcular o trigésimo quinto percentil para os dois exemplos anteriores. EXEMPLO 1: UNIDADE 2TÓPICO 394 M É T O D O S Q U A N T I T A T I V O S TABELA 34 – NÚMERO DE CASOS DE CÂNCER EM PARENTES PRÓXIMOS Incidência ni fi fai 0 4 0,1538 0,1538 1 4 0,1538 0,3077 2 6 0,2308 0,5385 3 6 0,2308 0,7692 4 2 0,0769 0,8462 5 4 0,1538 1,0000 TOTAL 26 1,0000 FONTE: A autora. Com base na coluna com as frequências acumuladas, notamos que: • 15,38% primeiros não possuem incidência de câncer. • 30,77% primeiros possuem até um caso de incidência de câncer. • 53,85% primeiros possuem até dois casos de incidência de câncer (C35). Portanto, C35 = 2. EXEMPLO 2: TABELA 35 – VENDAS Vendas (mil reais) ni fi Fai 15 ├ 25 143 0,3972 0,3972 25 ├ 35 142 0,3944 0,7917 35 ├ 45 56 0,1556 0,9472 45 ├ 55 19 0,0528 1,0000 TOTAL 360 1,0000 FONTE: A autora. Na tabela anterior, a frequência acumulada nos diz que 39,72% das vendasforam de 15 a 25 mil reais. Assim, o trigésimo quinto percentil está no primeiro intervalo. Neste caso, precisamos calcular quanto equivale, dentro do intervalo, a 35%. (25 – 15) = 10 - 39,72% x - 35% Assim, D4 = 15 + 8,874 = 23,874 mil reais. UNIDADE 2 TÓPICO 3 95 M É T O D O S Q U A N T I T A T I V O S 3 BOX PLOT OU DIAGRAMA DE CAIXAS Nesta unidade, aprendemos a apresentar dados qualitativos e quantitativos discretos por meio de tabelas e gráficos. Vamos agora aprender uma técnica para apresentar variáveis qualitativas discretas: o diagrama de caixas, ou box plot. Para construí-lo, precisamos de 5 informações sobre a variável considerada: • Valor mínimo • Primeiro quartil • Mediana, ou segundo quartil • Terceiro quartil • Valor máximo De posse destes valores, vamos criar uma “caixa”, onde o nível superior será dado pelo terceiro quartil e o nível inferior pelo primeiro quartil. A caixa será dividida pelo valor da mediana. Feita a caixa, na parte superior dela será inserida uma linha que vai até o valor máximo observado na minha pesquisa. Do mesmo modo, na parte inferior será inserida uma linha que vai se prolongar até o valor mínimo observado. A tabela a seguir apresenta as frequências relativas de ocorrências de faixas de altura (em cm) para uma amostra de 100 crianças de 12 anos de idade. TABELA 36 – ALTURA DAS CRIANÇAS DE 12 ANOS DE IDADE (cm) Faixas fi 100├ 110 0,10 110├ 120 0,25 120├ 130 0,30 130├ 140 0,25 140├ 160 0,10 TOTAL 1,00 FONTE: Magalhães (2010) O valor mínimo observado é de 100 cm, entretanto, mas não temos o valor máximo observado: vamos então considerar o limite superior da última classe: 160 cm. Agora precisamos calcular os quartis e, para isso, vamos incluir mais uma coluna na nossa tabela, incluindo as frequências acumuladas da amostra. UNIDADE 2TÓPICO 396 M É T O D O S Q U A N T I T A T I V O S TABELA 37 – ALTURA DAS CRIANÇAS DE 12 ANOS DE IDADE (cm) Faixas fi fai 100├ 110 0,10 0,10 110├ 120 0,25 0,35 120├ 130 0,30 0,65 130├ 140 0,25 0,90 140├ 160 0,10 1,00 TOTAL 1,00 FONTE: Magalhães (2010) Assim, • 10% das crianças tem altura de 100 cm a 110 cm. • 35% das crianças tem altura de 100 cm a 120 cm (Q1). • 65% das crianças tem altura de 100 cm a 130 cm (Q2). • 90% das crianças tem altura de 100 cm a 140 cm (Q3). Calculando o primeiro quartil: O primeiro quartil está no segundo intervalo. Como o primeiro já contém 10% das observações, precisamos calcular quanto equivale aos 15% restantes no segundo intervalo (25% - 10% = 15%). (120 – 110) = 10 cm - 25% x - 15% x = 6 cm, Ou seja, Q1 = 110 + 6 = 116 cm. Calculando o segundo quartil: O segundo quartil está no terceiro intervalo. Como os primeiros já contêm 35% das observações, precisamos calcular quanto equivale aos 15% restantes no terceiro intervalo (50% - 35% = 15%). (130 – 120) = 10 cm - 30% x - 15% x = 5 cm, Ou seja, Q2 = 120 + 5 = 125 cm. Calculando o terceiro quartil: O terceiro quartil está no terceiro intervalo. Como os primeiros já contêm 65% das observações, precisamos calcular quanto equivale aos 10% restantes no quarto intervalo (90% - 75% = 15%). UNIDADE 2 TÓPICO 3 97 M É T O D O S Q U A N T I T A T I V O S TABELA 37 – ALTURA DAS CRIANÇAS DE 12 ANOS DE IDADE (cm) (140 – 130) = 10 cm - 25% x - 10% x = 4 cm, Ou seja, Q3 = 130 + 4 = 134 cm. Agora já sabemos que: • Valor mínimo: 100 cm • Primeiro quartil: 116 cm • Mediana, ou segundo quartil: 125 cm • Terceiro quartil: 134 cm • Valor máximo: consideraremos 160 cm Então estamos em condições de montarmos o Box-plot. Para auxiliar-nos, consideraremos uma escala vertical. FIGURA 31 – BOX PLOT FONTE: A autora. O quadrado corresponde aos 50% centrais das observações: 50% das crianças tem altura entre 116 cm e 134 cm. Nota-se também que, dentro deste quadro, as alturas estão bem distribuídas, pois a mediana divide o quadrado praticamente ao meio. A vantagem do box plot é que é fácil visualizar a simetria e a variabilidade dos dados. Também é útil na comparação de grupos de variáveis. Observe o exemplo: UNIDADE 2TÓPICO 398 M É T O D O S Q U A N T I T A T I V O S FIGURA 32 – BOX PLOT PARA COMPARAÇÃO FONTE: A autora. Neste gráfico os dados relativos à altura foram separados de acordo com o gênero das crianças. É possível perceber que a altura dos meninos é superior à altura das meninas estudadas. Praticamente 75% das meninas têm menor altura menor do que apenas 25% dos meninos. Observe também as medianas de ambos os quadros, lembrando que elas dividem as observações ao meio. Veja como a distribuição, no caso das meninas, se concentra na parte superior do quadro, enquanto no caso dos meninos, ela se concentra na parte inferior. EXEMPLO: Em 2004 (ou 2005), foi feita uma pesquisa sobre a capacidade de resolver problemas envolvendo cálculos aditivos em estudantes da 1ª à 4ª série em escolas públicas de São Paulo e da Bahia. De acordo com as autoras do trabalho, 1.803 crianças responderam a um mesmo questionário contendo 12 problemas matemáticos. A seguir, apresentamos o box plot com os resultados observados. UNIDADE 2 TÓPICO 3 99 M É T O D O S Q U A N T I T A T I V O S FIGURA 33 – EXEMPLO DE BOX PLOT FONTE: Disponível em: <http://www.scielo.org.mx/scielo.php?script=sci_ arttext&pid=S1665-24362007000200003#f3>. Acesso em: 20 ago. 2013. UNIDADE 2TÓPICO 3100 M É T O D O S Q U A N T I T A T I V O S RESUMO DO TÓPICO 3 Neste tópico, estudamos as medidas de posição. Vimos que: • X for uma variável com observações chamamos de média de X à soma dos valores dividida pelo número de observações, ou seja, • X for uma variável agrupada com observações c u j a s f r e q u ê n c i a s observadas são respectivamente, com calculamos a média de X como • Dada uma variável X, a moda mo(X) consiste no valor mais frequente na observação, isto é, no valor que mais aparece. • É possível que uma variável possua várias modas, isto é, ela pode ser multimodal. • Se X for uma variável com observações denominamos mediana (md(X)) deste conjunto de observações o valor que ocupa a posição central dos dados ordenados. • Separatrizes são medidas resumo que separam os dados em partes. • A mediana é uma separatriz, pois separa os dados ao meio: 50% abaixo e 50% acima. • As separatrizes mais utilizadas são os quartis, os decis e os percentis. • O box plot, ou diagrama de caixas, é uma ferramenta gráfica utilizada para apresentar variáveis quantitativas contínuas. • Para fazer o box plot, é preciso conhecer os valores máximo e mínimo observado, e calcular os quartis. UNIDADE 2 TÓPICO 3 101 M É T O D O S Q U A N T I T A T I V O S AUT OAT IVID ADE � Vamos fixar os conteúdos vistos neste tópico através de alguns exercícios. 1 Estudando uma nova técnica de sutura, foram contados os dias necessários para a completa cicatrização de determinada cirurgia. Os resultados de 25 pacientes foram os seguintes: 6 8 9 7 6 6 7 8 9 10 7 8 10 9 9 9 7 6 5 7 7 7 8 10 11 Organize os dados numa distribuição de frequências e calcule o tempo médio necessário para a completa cicatrização. 2 O entroncamento entre duas ruas em uma determinada cidade tem alto índice de acidentes de trânsito, conforme pode ser constatado nos últimos 12 meses: 5 4 7 8 5 6 4 7 9 7 6 8. Determine a média do número de acidentes mensais neste local. 3 Em uma clínica cardíaca foram anotados os níveis de colesterol(em mg/100ml) para trinta pacientes, homens com idade entre 40 e 60 anos que foram à clínica fazer um check-up. Paciente 1 2 3 4 5 6 7 8 9 10 Colesterol 160 160 161 163 167 170 172 172 173 177 Paciente 11 12 13 14 15 16 17 18 19 20 Colesterol 178 181 181 182 185 186 194 197 199 203 Paciente 21 22 23 24 25 26 27 28 29 30 Colesterol 203 205 206 206 208 209 211 214 218 225 a) Calcule a média, moda e mediana a partir da tabela de frequência. b) Organize os dados em uma tabela de frequência com faixas de tamanho 10 a partir de 160. c) Refaça o item a. utilizando a tabela com intervalos de classe. UNIDADE 2TÓPICO 3102 M É T O D O S Q U A N T I T A T I V O S 4 O índice de germinação é um dos principais fatores para definir a qualidade das sementes. Ele é determinado em experimento científico conduzido pelo fabricante e regulamentado pelos órgãos fiscalizadores. Um fabricante afirma que o índice de germinação de suas sementes de milho é de 85%. Para verificar tal afirmação, uma cooperativa de agricultores sorteou 100 amostras com 100 sementes em cada uma e anotou a porcentagem de germinação em cada amostra. Germinação (%) Frequência 60├ 75 8 75├ 80 20 80├ 85 42 85├ 90 18 90├ 95 10 95├ 100 2 a) Calcule a média, a moda, a mediana e os quartis para estes dados. b) Construa o box plot. c) Comente a afirmação do fabricante. Obs.: exercícios adaptados de (MAGALHÃES, 2010). M É T O D O S Q U A N T I T A T I V O S MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE 1 INTRODUÇÃO TÓPICO 4 Vocês já devem ter ouvido falar no bairro do Morumbi, em São Paulo. Este bairro é considerado de classe média alta: o Jóquei Club fica no Morumbi, o palácio dos Bandeirantes – sede do governo do Estado, o Shopping Jardim Sul, que é um dos, senão o mais caro shopping da cidade. Mas neste bairro também fica a maior favela de São Paulo: a Paraisópolis. Se fosse feita uma pesquisa sobre a renda dos paulistanos de acordo com o bairro em que eles moram, possivelmente a renda média dos moradores do Morumbi seria muito boa, mas será que seria representativa? Muitas vezes, as medidas de posição por si só não nos dão a informação completa, e escondem discrepâncias que deveriam ser conhecidas. Por esta razão, as medidas de posição precisam ser complementadas pelas medidas de dispersão, que nos dizem como os valores se distribuem em torno das medidas de posição. Assim como no caso das medidas de posição, existem várias medidas de dispersão. A mais simples e imediata delas é a amplitude. UNIDADE 2 2 AMPLITUDE A amplitude de certa variável é a diferença entre o maior e o menor valor observado, e é denotada por Δ (DELTA). Já conhecemos este conceito, uma vez que o aplicamos várias vezes em intervalos de classe. EXEMPLO: Considere os dados a seguir, relativos a uma pesquisa sobre determinada variável quantitativa. UNIDADE 2TÓPICO 4104 M É T O D O S Q U A N T I T A T I V O S TABELA 38 – MEDIDAS DE DISPERSÃO xi ni 0 7 1 3 2 4 3 2 4 0 5 5 TOTAL 21 FONTE: A autora. O maior valor observado nesta tabela foi 5, enquanto o menor foi 0: portanto, a amplitude desta pesquisa é Δ = 5. Note que, embora nos ajude, a amplitude só leva em conta os dois valores extremos. Se a nossa variável se comportar de maneira bem homogênea, a amplitude é bastante útil, mas se esse não for o caso, ela não nos ajuda muito. Por exemplo, a média dos valores obtidos na tabela 12 é e a amplitude 5. Note que apenas estas informações não são suficientes para descrever o comportamento da variável (a moda desta distribuição é 0). O ideal é que pudéssemos levar em conta todos os valores observados. Vamos pensar em um cálculo que nos forneça uma medida mais representativa. Sugestão 1: Para corrigir este problema, poderíamos tomar as diferenças entre os valores encontrados e a média e, depois, calcular a média novamente destes valores. Desta forma, teríamos uma medida de dispersão em relação à média que levaria em conta todos os valores observados. Problema: se a variável a ser representada puder assumir valores positivos e negativos, eventualmente, se anularão no cálculo. TABELA 39 – CÁLCULO DE DESVIOS xi fi 1 6 2 0 3 6 TOTAL 12 FONTE: A autora. UNIDADE 2 TÓPICO 4 105 M É T O D O S Q U A N T I T A T I V O S Sugestão 2: Poderíamos tomar as diferenças em módulo e, depois, calcular novamente a média. Problema: módulo é uma função matemática um pouco chata de trabalhar. Sugestão 3: Poderíamos elevar as diferenças ao quadrado: neste caso, a soma seria apenas de números positivos. Problema: perderíamos a real dimensão dos valores, pois estaríamos considerando seu quadrado. Entretanto, este problema pode ser contornado extraindo a raiz quadrada o valor encontrado. 3 VARIÂNCIA E DESVIO-PADRÀO POPULACIONAL A fórmula que encontramos mede a dispersão dos dados, levando em consideração todos os valores observados. É esta medida que normalmente utilizamos, e que recebe o nome de variância. Formalmente, segundo Magalhães (2010), se X uma variável com observações , chamamos de variância populacional deste conjunto de observações a seguinte equação: chamamos de variância populacional deste conjunto de observações a seguinte equação: UNIDADE 2TÓPICO 4106 M É T O D O S Q U A N T I T A T I V O S UNI Para calcular a variância, é necessário primeiro passo obter a média. EXEMPLO: Suponhamos que os dados a seguir são relativos ao tempo de espera em minutos para o atendimento médico em um consultório em certo dia A. 20 30 15 40 38 35 20 24 Inicialmente, vamos calcular a média de tempo de espera: De posse da média, podemos calcular a variância: O fato de termos elevado as diferenças ao quadrado faz com que nosso resultado seja dado em (min)2. Se tomarmos a raiz deste valor, voltaremos a ter um número em minutos. Este procedimento nos dá o que chamamos de desvio-padrão: No nosso caso, o valor do desvio-padrão será Assim, o tempo médio de espera foi de 27,75 min com um desvio-padrão de 8,73 min. O que isto significa? Significa que o tempo médio de espera é de 27,75 min, e que os outros tempos de espera não diferem mais do que 8,73 min deste valor. Vimos que, quando a variável está sendo apresentada em uma tabela de frequências, o cálculo da média é facilitado. A mesma coisa acontece com a variância. UNIDADE 2 TÓPICO 4 107 M É T O D O S Q U A N T I T A T I V O S EXEMPLO: Vamos calcular a variância para as duas tabelas anteriores, admitindo agora que elas se refiram a uma amostra. TABELA 40 – MEDIDAS DE DISPERSÃO xi ni 0 7 0∙7 = 0 -2 4 1 3 1∙3 = 3 -1 1 2 4 2∙4 = 8 0 0 3 2 3∙2 = 6 1 1 4 0 4∙0 = 0 2 4 5 5 5∙5 = 25 3 9 TOTAL 21 42 19 Média 42/21=2 V a r i â n c i a populacional 19/21=0,905 Desvio padrão populacional FONTE: A autora. TABELA 41 – CÁLCULO DE DESVIOS xi fi 1 6 6 -1 1 2 0 0 0 0 3 6 18 1 1 TOTAL 12 24 2 Média 2 Var(X) 0,167 dp(X) 0,408 FONTE: A autora. 4 VARIÂNCIA E DESVIO-PADRÀO AMOSTRAL A fórmula que vimos anteriormente é utilizada para o cálculo da variância e do desvio- padrão populacional, isto é, quando toda a população foi considerada. Como normalmente trabalhamos com amostra, precisamos fazer um ajuste nos cálculos, por questões técnicas que fogem ao escopo deste Caderno de Estudos (para saber mais, consulte (MAGALHÃES, 2010)). Assim, a variância amostral de um conjunto de observações é dada pela seguinte equação: UNIDADE 2TÓPICO 4108 M É T O D O S Q U A N T I T A T I V O S UNI Atente para o denominador da fórmula: é a única diferença entre variância populacional e amostral. EXEMPLO: Se os dados a seguir sãorelativos ao tempo de espera em minutos para o atendimento médico em um consultório para uma amostra de pacientes (não todos!) em certo dia A, 20 30 15 40 38 35 20 24 a variância será dada por: O cálculo do desvio-padrão não muda: No nosso caso, o valor do desvio-padrão será EXEMPLO: Vamos calcular a variância amostral para as duas tabelas anteriores. Aproveitamos para mostrar uma maneira de facilitar o cálculo construindo uma tabela auxiliar. UNIDADE 2 TÓPICO 4 109 M É T O D O S Q U A N T I T A T I V O S TABELA 42 – MEDIDAS DE DISPERSÃO xi ni 0 7 0∙7 = 0 -2 4 1 3 1∙3 = 3 -1 1 2 4 2∙4 = 8 0 0 3 2 3∙2 = 6 1 1 4 0 4∙0 = 0 2 4 5 5 5∙5 = 25 3 9 TOTAL 21 42 19 Média 42/21=2 Va r i â n c i a amostral 19/20=0,950 D e s v i o p a d r ã o amostral FONTE: A autora. TABELA 43 – CÁLCULO DE DESVIOS Xi fi 1 6 6 -1 1 2 0 0 0 0 3 6 18 1 1 TOTAL 12 24 2 Média 2 V a r i â n c i a Amostral 0,182 Desvio-padrão amostral 0,426 FONTE: A autora. 5 ASSIMETRIA Ao estudarmos média, moda e variância, comentamos que as três medidas de posição podem ou não assumir valores iguais. Quando a média e a moda coincidem, dizemos que a é simétrica. Observe as duas situações a seguir: UNIDADE 2TÓPICO 4110 M É T O D O S Q U A N T I T A T I V O S TABELA 44 – DISTRIBUIÇÃO SIMÉTRICA xi ni 0 1 1 2 2 5 3 2 4 1 TOTAL 11 FONTE: A autora. Calculando a média, a moda e a mediana desta distribuição, obtemos os seguintes valores: , Md(X) =2, Mo(X)=2. O gráfico de linhas a seguir ilustra esta distribuição: FIGURA 34 – DISTRIBUIÇÃO DA FREQUÊNCIA FONTE: A autora A tabela a seguir nos mostra uma distribuição assimétrica. TABELA 45 – DISTRIBUIÇÃO ASSIMÉTRICA xi ni 0 2 1 2 2 3 3 5 4 2 5 1 TOTAL 15 FONTE: A autora. UNIDADE 2 TÓPICO 4 111 M É T O D O S Q U A N T I T A T I V O S Calculando a média, a moda e a mediana desta distribuição, obtemos os seguintes valores: , Md(X) =3, Mo(X)=3. FIGURA 35 – DISTRIBUIÇÃO DE FREQUÊNCIA ASSIMÉTRICA FONTE: A autora. Com base nestes exemplos, podemos dizer que existem três tipos de distribuição (CRESPO, 2005): • Distribuições simétricas: são aquelas em que a média coincide com a moda. simetria • Distribuições assimétricas à esquerda, ou negativas: são aquelas em que a média é menor do que a moda. • Distribuições assimétricas à direita, ou positivas: são aquelas em que a média é maior do que a moda. Mesmo sem traçar o gráfico da distribuição, é possível saber se a distribuição é simétrica ou não e, caso não seja, é possível medir o quão assimétrica a distribuição é. Este coeficiente de assimetria também é conhecido como coeficiente de Pearson e é dado por: onde é a média, Md(X) é a mediana e s é o desvio-padrão amostral da distribuição. UNIDADE 2TÓPICO 4112 M É T O D O S Q U A N T I T A T I V O S No exemplo de assimetria anterior, uma vez calculada a média, a mediana e o desvio- padrão amostral teremos Quando o coeficiente de assimetria de Pearson As é tal que 0 < |As| ≤ 0,15, dizemos que a assimetria é leve; quando 0,15 < |As| < 1, dizemos que a assimetria é moderada e quando |As| ≥ 1, a assimetria é considerada forte. No caso do nosso exemplo, 0,15 < |As| = |-0,46| = 0,46 < 1, isto é, a assimetria é moderada. 6 CURTOSE Se a assimetria mede a distância entre a moda e a média da distribuição, a curtose permite medir o grau de achatamento da distribuição em relação à distribuição normal (distribuição estatística teórica). Uma maneira de medir a curtose é através do coeficiente percentílico de curtose, dado pela seguinte fórmula: onde Q3 e Q1 se referem ao terceiro e primeiro quartis, respectivamente, e P90 e P10 ao 90º e ao 10º percentis da distribuição. Vamos calcular o coeficiente de curtose dos seguintes dados: TABELA 46 – DISTRIBUIÇÃO SIMÉTRICA Xi ni fi fai 0 1 0,09 0,09 1 2 0,18 0,27 2 5 0,45 0,73 3 2 0,18 0,91 4 1 0,09 1,00 TOTAL 15 1,00 FONTE: A autora. UNIDADE 2 TÓPICO 4 113 M É T O D O S Q U A N T I T A T I V O S O primeiro quartil é o que divide os 25% primeiros dados da amostra dos 75% dados restantes. De acordo com as frequências acumuladas, Q1 = 1. O terceiro quartil é o que divide os 75% primeiros dados da amostra dos 25% dados restantes. De acordo com as frequências acumuladas, Q3 = 3. O décimo percentil é o que divide os 10% primeiros dados da amostra dos 90% dados restantes. De acordo com as frequências acumuladas, P10 = 1. O nonagésimo percentil é o que divide os 90% primeiros dados da amostra dos 10% dados restantes. De acordo com as frequências acumuladas, P90 = 3. Voltando à fórmula, Como interpretar neste valor? • Quando C = 0,263, dizemos que a curva é mesocúrtica. • Quando C < 0,263, dizemos que a curva é leptocúrtica. • Quando C > 0,263, dizemos que a curva é platicúrtica. No caso do nosso exemplo, a curva é leptocúrtica. FIGURA 36 – TIPOS DE CURTOSE FONTE: Disponível em: <http://estatisticax.blogspot.com.br>. Acesso em: 31 jan. 2014. O texto a seguir é uma adaptação do texto de autoria do prof. Dr. Marcelo Menezes Reis e nos fala como interpretar os dados estatísticos que nos cercam. UNIDADE 2TÓPICO 4114 M É T O D O S Q U A N T I T A T I V O S LEITURA COMPLEMENTAR COMO CONTESTAR ESTATÍSTICAS Marcelo Menezes As informações que serão apresentadas aqui são provenientes do livro “Como Mentir com Estatística”, de Darrell Huff, com pequenos acréscimos (geralmente exemplos). O objetivo deste texto é desmistificar muitas das ideias pré-concebidas sobre estatísticas, evitando que o “fascínio” por números e percentagens (ou a ignorância sobre como eles foram produzidos) turvem o senso crítico das pessoas. Nem todas as estatísticas veiculadas ao público (principalmente pela mídia) estão erradas ou merecem ser consideradas com suspeição, mas muitas vezes as informações são apresentadas de forma tão incompleta que se torna difícil acreditar nelas. Para verificar a validade de uma estatística, seja ela veiculada em um jornal de grande circulação, na TV, ou em uma revista especializada, você deve fazer cinco perguntas: Quem é que diz isso? Como é que ele sabe? O que é que está faltando? Alguém mudou de assunto? Isso faz sentido? Quem é que diz isso? Procure sempre saber quem está divulgando a estatística: pode ser uma empresa no meio de uma negociação de salários, ou um sindicato na mesma situação, ou um laboratório “independente” que precisa mostrar resultados, ou simplesmente um jornal atrás de uma boa matéria. Uma empresa americana declarou que os salários no segundo semestre de um ano estavam muito acima daqueles pagos no início do ano, portanto não era hora do sindicato pedir um aumento. O que a empresa “esqueceu” de dizer é que no início do ano havia uma grande quantidade de trabalhadores de meio-período, e que estes passaram a cumprir turno integral a partir do segundo trimestre do ano, sendo assim seus salários teriam que forçosamente subir, mas isso não implica que os salários tenham “melhorado realmente”. Procure os viesamentos, deliberados ou inconscientes, aplicados aos resultados. Quando ouvir “pesquisa feita por médicos americanos revela...” tome cuidado: que médicos são estes? Cuidado com as declarações do tipo “Universidade de Harvard descobriu que...”. Verifique se realmente há pessoas qualificadas da “instituição de prestígio” em questão divulgando as descobertas. UNIDADE 2 TÓPICO 4 115 M É T O D O S Q U A N T I T A T I V O S Em 1994 foi divulgado um relatório otimista sobre o número de árvores nos Estados Unidos: os peritos chegaram à conclusão que havia muito mais árvoresem 1994 do que houvera em 1894 (cem anos antes). Fonte do levantamento: o equivalente a uma associação de madeireiras... Onde está o viés? Está na definição de “árvore”: os peritos consideraram “árvore” tanto uma sequoia centenária de 100 metros de altura quanto uma muda de Pinus plantada há pouco... Outro viesamento muito comum é encontrado na forma de apresentar os resultados. Veja o exemplo abaixo, referente aos salários de 11 pessoas de uma empresa: Pessoa 1 2 3 4 5 6 7 8 9 10 11 Sa lá r i o (u.m.) 150 200 200 250 300 350 350 400 400 3000 8000 Alguém da direção desta empresa poderia afirmar que o salário "médio" é de 1236,36 u.m., portanto o nível salarial nesta seção é "muito bom". Alguém do sindicato protesta e diz que na verdade o salário "médio" é de 350 u.m., o que não é um nível "muito bom". Qual dos dois está errado? Surpreendentemente nenhum deles. O homem da direção usou a média aritmética para calcular o salário "médio": a média aritmética pode ser distorcida por valores discrepantes, o que se comprova ao observar na tabela os salários das pessoas 10 e 11 que estão bem distantes da maioria dos outros. Já o homem do sindicato usou outra medida estatística a mediana: a mediana divide um conjunto ordenado de dados em duas partes iguais, metade é maior do que a mediana e metade é menor do que a mediana. Na tabela acima a pessoa 6 é "ponto central" e seu salário de 350 u.m. (salário mediano) representa muito melhor o conjunto. Como é que ele sabe? Como aqueles que estão divulgando a estatística obtiveram a informação? Se a estatística foi obtida através de uma amostra procure indícios de viesamento: uma amostra selecionada indevidamente, ou que não seja grande o bastante para permitir uma conclusão confiável. Um caso típico de amostra selecionada indevidamente são as estatísticas resultantes de pesquisas feitas pelo correio: o pesquisador envia pelo correio questionários aos entrevistados, solicitando que eles os preencham e devolvam. Faça a si mesmo esta pergunta: "quantos questionários eu já recebi pelo correio e quantos eu já respondi"? Neste tipo de procedimento de pesquisa o percentual de pessoas ou organizações que efetivamente respondem aos questionários costuma ser muito reduzido, de modo que esses resultados não podem ser considerados representativos. Quanto às pequenas amostras é necessário maior cautela ainda. Utilizando uma pequena UNIDADE 2TÓPICO 4116 M É T O D O S Q U A N T I T A T I V O S amostra o resultado obtido pode ter ocorrido totalmente POR ACASO! O pesquisador pode ter tomado todos os cuidados, selecionado os elementos da amostra com critério e portar-se com a maior honestidade imaginável, mas a chance de um resultado "por acaso" é muito alta. Quando a amostra é suficientemente grande este risco persiste, mas a probabilidade de sua ocorrência reduz-se drasticamente. Se alguém diz a você que após tratar dez ratos diabéticos com certa erva medicinal, a sua taxa de glicose baixou 2,4%, e que com isso foi provado estatisticamente que a erva auxilia no tratamento do diabetes, o que você fará? Observe o tamanho da amostra (apenas dez ratos) e a redução obtida (que nesta amostra poderia ter ocorrido totalmente por acaso). Um dos casos mais intrigantes para nós brasileiros é o resultado de uma pesquisa eleitoral. É plenamente possível obter resultados confiáveis utilizando metodologias de amostragem e tratamento de dados adequados. Mas não se esqueça de que há uma variação em torno dos percentuais (mais ou menos 5%), e que há uma pequena probabilidade (geralmente da ordem de 5%) de que o valor "verdadeiro" do percentual não esteja naquele intervalo. O que é que está faltando? Alguma coisa sobre isso já foi discutido nos itens anteriores. Muitas vezes o tamanho da amostra utilizada, ou o perfil dos seus elementos sequer é divulgado. Há casos em que os números brutos são suprimidos e apenas os percentuais são apresentados, em outros casos é justamente o contrário. As condições que podem ter levado aos resultados também costumam ser suprimidas. Se alguém diz que 33,33% (percentual) das mulheres de um curso se casaram com professores você poderia ter uma má impressão destas moças. Mas se alguém diz que das três mulheres (dados brutos) deste curso uma delas casou-se com um professor o efeito já não será tão grande. Um jornal afirma que a safra de um ano é quatro vezes maior do que a do ano anterior, o que evidencia a produtividade e o trabalho do homem do campo! Nada contra o homem do campo (que trabalha muito e ganha pouco), mas o jornal pode ter se esquecido de dizer que no ano anterior houve uma enchente que dizimou cerca de 80% da safra prevista, o que torna o ano totalmente inadequado para servir como base para o cálculo. "Podemos mensurar o aumento da violência pela comparação entre o número de estupros de hoje e o de vinte anos atrás". Qualquer um sabe que a violência está aumentando, mas talvez o número de estupros fosse maior há vinte anos, quando as mulheres sentiam-se muito mais constrangidas em denunciar seus agressores e preferissem o silêncio. Com o passar do tempo, e com a conscientização o número de denúncias aumentou, não necessariamente indicando que a violência aumentou por causa disso... Cuidado com as correlações: identificar que duas variáveis caminham na mesma direção ou em direções opostas NÃO SIGNIFICA UNIDADE 2 TÓPICO 4 117 M É T O D O S Q U A N T I T A T I V O S NECESSARIAMENTE que a variação de uma causou a da outra (pode haver outras variáveis influenciando ambas). Alguém mudou de assunto? Se alguém constata que o número de casos comunicados de uma doença aumentou e diz que o número de casos ocorridos da doença aumentou (veja o que uma única palavra pode causar) está mudando de assunto. Algumas pessoas mais impressionáveis poderiam pensar que há uma epidemia, ao invés de uma maior precisão nos diagnósticos que agora classificam como câncer de mama o que antes era "mal de peito". Uma pesquisa eleitoral, por mais bem conduzida que seja, não indica em quem as pessoas realmente vão votar, mas em quem elas dizem que vão votar naquele momento (alguém que se diz indeciso pode já ter o seu candidato escolhido desde o berço, outro que afirma votar na situação assim procede por ser funcionário público, etc.). Assim, se você faz uma pesquisa entre advogados e descobre que eles se acham mal remunerados por seus serviços, e você divulga que os profissionais liberais (incluindo nesta categoria várias outras profissões) se acham mal remunerados você está mudando de assunto. "A 'população' de uma grande área da China era de 28 milhões. Cinco anos depois chegava a 105 milhões. Muito pouco desse aumento era real. A grande diferença só pôde ser explicada levando-se em conta as finalidades das duas coletas censitárias e a maneira como as pessoas se sentiram ao serem contadas em cada caso. O primeiro censo foi para fins de tributação e serviço militar; o segundo para ajuda em caso de fome". Isso faz sentido? Será que o resultado divulgado de uma estatística faz sentido? Será que analisando os resultados sem se deixar impressionar pelas casas decimais e percentuais os resultados são "lógicos"? Avaliar com bom senso se a estatística se coaduna com os fatos ao seu redor pode nos proteger de cair em muitas falácias. Logo após a primeira crise do petróleo, em 1973, calculava-se que em 1985 o preço do barril estaria por volta de US$ 80. Sendo assim, muitas formas de energia alternativa foram desenvolvidas tendo em mente aquele valor, acreditando que aquela tendência de crescimento seria mantida, o que não aconteceu: o preço do barril despencou em 1986 e as formas "alternativas" tornaram-se economicamente inviáveis (o que não quer dizer que tambémo sejam por outros critérios). Usar tendências antigas, observadas em épocas em que o mundo era muito diferente do que é hoje é extremamente perigoso. Você acha que o Brasil de 1980 é o mesmo Brasil de 1997? A definição de "família padrão" em 1960 continua válida hoje? Extrapolar tais tendências e acreditar que tais conclusões são válidas é, no mínimo, ingênuo. UNIDADE 2TÓPICO 4118 M É T O D O S Q U A N T I T A T I V O S Estatísticas do tipo para cada dez brasileiros dois têm diabetes: isso significa para uma população de 150 milhões de habitantes 30 milhões de diabéticos! Se for verdade possivelmente não haverá insulina suficiente no país inteiro para tratar tanta gente... FONTE: Disponível em: <http://www.inf.ufsc.br/~marcelo/contest.html>. Acesso em: 31 jan. 2014. UNIDADE 2 TÓPICO 4 119 M É T O D O S Q U A N T I T A T I V O S RESUMO DO TÓPICO 4 Neste tópico, estudamos os conjuntos finitos e os conjuntos infinitos, mais precisamente: • A amplitude de certa variável é a diferença entre o maior e o menor valor observado, e é denotada por Δ. • Se X uma variável com observações chamamos de variância populacional deste conjunto de observações a seguinte equação: • O desvio-padrão populacional é dado por • A variância amostral de um conjunto de observações é dada pela seguinte equação: • O desvio-padrão amostral é dado por • Em uma distribuição de frequências, quando a média e a moda coincidem, dizemos que há simetria. • Coeficiente de assimetria também é conhecido como coeficiente de Pearson e é dado por: • A curtose permite medir o grau de achatamento da distribuição em relação à distribuição normal (distribuição estatística teórica). O coeficiente percentílico de curtose é dado por • Quando C = 0,263, dizemos que a curva é mesocúrtica. • Quando C < 0,263, dizemos que a curva é leptocúrtica. • Quando C > 0,263, dizemos que a curva é platicúrtica. UNIDADE 2TÓPICO 4120 M É T O D O S Q U A N T I T A T I V O S AUT OAT IVID ADE � Agora vamos fixar o conteúdo que estudamos neste tópico por meio de alguns exercícios. 1 No tópico anterior, você organizou os dados relativos ao tempo em dias necessário para a completa cicatrização de determinada cirurgia (exercício 1). Calcule para o mesmo exercício: a) A amplitude dos dados. b) O desvio padrão populacional. c) O coeficiente de assimetria. d) O coeficiente de curtose. 2 No tópico anterior, você calculou a média de acidentes nos últimos 12 meses em um entroncamento numa certa cidade. 5 4 7 8 5 6 4 7 9 7 6 8 Encontre: a) O desvio padrão populacional. b) A distribuição é assimétrica? Justifique sua resposta. c) Indique que tipo de curtose ocorre nesta distribuição. 3 Em uma clínica cardíaca foram anotados os níveis de colesterol (em mg/100ml) para trinta pacientes, homens com idade entre 40 e 60 anos que foram à clínica fazer um check-up. Paciente 1 2 3 4 5 6 7 8 9 10 Colesterol 160 160 161 163 167 170 172 172 173 177 Paciente 11 12 13 14 15 16 17 18 19 20 Colesterol 178 181 181 182 185 186 194 197 199 203 Paciente 21 22 23 24 25 26 27 28 29 30 Colesterol 203 205 206 206 208 209 211 214 218 225 No tópico anterior, você organizou estes dados em uma distribuição de frequências simples. Utilize esta tabela para calcular: a) O desvio padrão amostral. b) O coeficiente de assimetria (se houver assimetria). c) O coeficiente de curtose. UNIDADE 2 TÓPICO 4 121 M É T O D O S Q U A N T I T A T I V O S 4 Um banco instalou um caixa eletrônico em um posto de combustível e está observando o número de usuários que vem utilizando o serviço. Diariamente, número de clientes que utilizou o serviço nos últimos 32 dias foi: 15 17 16 15 17 14 17 16 16 17 15 18 14 17 15 14 15 14 15 16 17 18 18 17 15 16 14 18 18 16 15 14. Calcule: a) A variância amostral para esta distribuição. b) Qual é o tipo de curtose que ocorre? 5 Um posto de saúde de certo bairro mantém um arquivo com o número de pacientes que procuram o consultório odontológico diariamente. Os dados obtidos no último mês foram os seguintes: 3 4 3 4 5 1 6 3 4 5 3 4 3 3 4 3 5 5 5 5 6 11 10 2 1 2 3 1 5 2. Calcule a variância amostral para esta distribuição. Há simetria? Por quê? 6 (MAGALHAES, 2010) O tempo de utilização de caixas eletrônicos depende de cada usuário e das operações efetuadas. Foram coletadas 26 medidas desse tempo (minutos): 1,1 1,2 1,7 1,5 0,9 1,3 1,4 1,6 1,7 1,6 1,0 0,8 1,5 1,3 1,7 1,6 1,4 1,2 1,2 1,0 0,9 1,8 1,7 1,5 1,3 1,5 UNIDADE 2TÓPICO 4122 M É T O D O S Q U A N T I T A T I V O S AVAL IAÇà O Prezado(a) acadêmico(a), agora que chegamos ao final da Unidade 2, você deverá fazer a Avaliação referente a esta unidade. M É T O D O S Q U A N T I T A T I V O S UNIDADE 3 COrrELAÇÃO E rEgrESSÃO LINEAr ObjETIvOS DE AprENDIzAgEm Nesta unidade vamos: • apresentar o conceito de regressão linear; • exibir o método dos mínimos quadrados para ajudar a reta de regressão; • explicar como se dá a regressão múltipla; • aprender a ajustar o plano de regressão múltipla. TÓPICO 1 – CORRELAÇÃO TÓPICO 2 – REGRESSÃO LINEAR TÓPICO 3 – REGRESSÃO MÚLTIPLA pLANO DE ESTUDOS A Unidade 1 está dividida em três tópicos, contendo exemplos e, no final de cada um deles, há exercícios para lhe familiarizar com o assunto. M É T O D O S Q U A N T I T A T I V O S M É T O D O S Q U A N T I T A T I V O S CORRELAÇÃO 1 INTRODUÇÃO TÓPICO 1 Muitas vezes, ao realizarmos uma pesquisa estatística, não nos interessa apenas o comportamento das variáveis isoladamente, mas sim, o comportamento de duas ou mais variáveis ao mesmo tempo. Por exemplo: • A variação no valor do dólar em relação ao real afetou a importação de mercadorias? • O aumento de investimento em turismo resultou em um aumento no fluxo de turistas? • A quantidade de água adicionada à determinada marca de cimento afeta na qualidade do concreto resultante? • O aumento salarial para funcionários de certa empresa afetou o volume de vendas? • O investimento na compra de maquinário reverteu positivamente no lucro de uma empresa? Neste tópico, aprenderemos a relacionar duas variáveis, e a verificar se há algum tipo de relação entre elas: se o comportamento de uma afeta o comportamento da outra. UNIDADE 3 2 RELAÇÃO ENTRE VARIÁVEIS Suponhamos que uma pesquisa detectou o número de vestibulares prestados por cada estudante antes da sua aprovação em determinada universidade. Para que a pesquisa ficasse mais completa, foi perguntado também a cada um dos estudantes se ele trabalhava na época ou não. Os dados obtidos com a pesquisa aplicada a 10 estudantes foram os seguintes: UNIDADE 3TÓPICO 1126 M É T O D O S Q U A N T I T A T I V O S Onde X é a variável ‘número de vestibulares prestados antes da primeira aprovação’ e Y é a variável ‘trabalhava’. Imagina-se que o fato de trabalhar fora afete o desempenho do estudante nos vestibulares negativamente, ou seja, imagina-se que estas variáveis estejam relacionadas de alguma forma, mas olhando simplesmente para os dados sem agrupá-los, fica difícil tirar qualquer conclusão. Uma tabela de dupla entrada poderia facilitar a análise. Para isso, vamos construir uma tabela auxiliar, contendo as possibilidades conjuntas de X e Y e a frequência observada de cada uma: TABELA 47 – TABELA AUXILIAR PARA CONSTRUÇÃO DA TABELA DE DUPLA ENTRADA (X, Y) ni (1, sim) 3 (1, não) 4 (2, sim) 1 (2, não) 1 (3, sim) 1 (3, não) 0 TOTAL 10 FONTE: A autora. Agora estamos em condições de construir uma tabela de dupla entrada: TABELA48 – RELAÇÃO ENTRE VESTIBULARES PRESTADOS ANTES DA PRIMEIRA APROVAÇÃO E TRABALHO N ú m e r o d e v e s t i b u l a r e s prestados Trabalhava na época TOTAL Sim Não 1 3 4 7 2 1 1 2 3 1 0 1 TOTAL 5 5 10 FONTE: A autora. UNIDADE 3 TÓPICO 1 127 M É T O D O S Q U A N T I T A T I V O S A primeira e a última coluna nos dão o que chamamos de tabela marginal de X, e a primeira e a última linha nos dão a tabela marginal de Y. xi ni yi ni 1 7 Sim 5 2 2 Não 5 3 1 TOTAL 10 TOTAL 10 Observe que nada mais são do que as distribuições de frequência das variáveis X e Y, respectivamente. A tabela de dupla entrada permite então visualizar o comportamento das duas variáveis ao mesmo tempo. EXEMPLO: Em certa unidade de saúde, o comportamento conjunto dos casos mensais de sarampo (S) e difteria (D) foi o seguinte): Dia 1 2 3 4 5 6 7 8 9 10 S 0 1 1 3 0 2 2 1 2 1 D 3 2 2 2 3 2 1 2 2 1 Dia 11 12 13 14 15 16 17 18 19 20 S 1 1 2 0 0 1 1 2 3 1 D 2 2 3 2 1 2 2 1 3 2 Dia 21 22 23 24 25 26 27 28 29 30 S 0 1 2 1 0 0 0 1 1 2 D 2 2 2 1 2 1 1 1 3 3 FONTE: Adaptado de: Magalhães e Lima (2010) Vamos construir a tabela auxiliar, contendo as possibilidades conjuntas de S e D e a frequência observada de cada uma. Os valores observados para a variável S (sarampo) foram 0, 1, 2 e 3 respectivamente, enquanto para a variável D (difteria), foram 1, 2 e 3 respectivamente. A tabela auxiliar deve conter todas as combinações possíveis destes valores. UNIDADE 3TÓPICO 1128 M É T O D O S Q U A N T I T A T I V O S TABELA 49 – TABELA AUXILIAR PARA CONSTRUÇÃO DA TABELA DE DUPLA ENTRADA (S, D) ni (0, 1) 3 (0, 2) 3 (0,3) 2 (1, 1) 3 (1, 2) 9 (1,3) 1 (2,1) 2 (2,2) 3 (2,3) 2 (3,1) 0 (3,2) 1 (3, 3) 1 TOTAL 30 FONTE: A autora. Agora estamos em condições de montar a tabela de dupla entrada: TABELA 50 – RELAÇÃO ENTRE VARIÁVEIS CASOS MENSAIS DE SARAMPO E DIFTERIA NA UNIDADE DE SAÚDE Difteria Sarampo TOTAL 0 1 2 3 1 3 3 2 0 8 2 3 9 3 1 16 3 2 1 2 1 6 TOTAL 8 13 7 2 30 FONTE: Magalhães e Lima (2010) 3 INDEPENDÊNCIA ENTRE VARIÁVEIS Uma vez que sabemos esboçar a tabela de distribuição conjunta de duas variáveis, a pergunta que se coloca agora é: como saber se o comportamento de uma influência é o comportamento da outra? Será que há relação entre elas? Será que o comportamento de uma depende do comportamento da outra? Estas perguntas são importantes porque, se as variáveis forem dependentes, podemos explicar como uma delas de comporta em função do desempenho da outra. UNIDADE 3 TÓPICO 1 129 M É T O D O S Q U A N T I T A T I V O S Embora difíceis de responder por completo, há algumas maneiras de chegarmos a respostas parciais para estas questões. Uma maneira de obter algum tipo de informações sobre dependência (ou independência) é observar o comportamento de uma das variáveis mantendo a outra constante. Se duas variáveis X e Y forem independentes, por exemplo, é esperado que o fato de X ser 2 ou 3 não afete o comportamento de Y. Vamos entender como fazer isso partindo do exemplo anterior, sobre o número de casos diários de sarampo e difteria observados na unidade de saúde. A tabela de distribuição conjunta nos fornece também o comportamento das variáveis por si só, por meio das distribuições marginais. TABELA 51 – RELAÇÃO ENTRE VARIÁVEIS CASOS MENSAIS DE SARAMPO E DIFTERIA NA UNIDADE DE SAÚDE Difteria Sarampo TOTAL 0 1 2 3 1 3 3 2 0 8 2 3 9 3 1 16 3 2 1 2 1 6 TOTAL 8 13 7 2 30 FONTE: Magalhães e Lima (2010). Se o número de casos diários de sarampo, por exemplo, não interfere no número de casos diários de difteria, era de se esperar que o fato de terem 30 casos de sarampo, 8 ou 16 não fizesse diferença: o comportamento da variável ‘difteria’ seria o mesmo, isto é, o número de casos seria proporcional. Uma maneira de verificar esta relação é calcular as porcentagens dos casos de difteria em relação aos casos de sarampo. Para isso, mantém-se fixa a última linha da tabela e consideram-se aqueles valores como sendo 100% dos casos observados. Em seguida, calcula- se quanto cada número de ocorrências na coluna representa sobre o número de casos de sarampo. Vamos fazer os cálculos para a primeira coluna – os outros são análogos. Total de dias em que não houve ocorrências de sarampo: 8. Para a primeira coluna, 8 corresponderá a 100%. Nos dias em que não houve casos de sarampo, em 3 deles houve uma ocorrência de difteria, o que corresponde a 37,5% dos dias ((3/8)∙100%); em 3 deles houve duas ocorrências de difteria, o que corresponde a 37,5% dos dias ((3/8)∙100%); em 2 deles houve três ocorrências de difteria, o que corresponde a 25% dos dias. UNIDADE 3TÓPICO 1130 M É T O D O S Q U A N T I T A T I V O S Pronto, já temos os dados da primeira coluna. Repetimos o procedimento para uma das colunas da tabela, obtendo os seguintes valores no final: TABELA 52 – INDEPENDÊNCIA ENTRE VARIÁVEIS CASOS MENSAIS DE SARAMPO E DIFTERIA NA UNIDADE DE SAÚDE Difteria Sarampo TOTAL 0 1 2 3 1 37,5% 23,1% 28,6% 0,0% 26,7% 2 37,5% 69,2% 42,8% 50,0% 53,3% 3 25,0% 7,7% 28,6% 50,0% 20,0% TOTAL 100,0% 100,0% 100,0% 100,0% 100,0% FONTE: A autora. Se as variáveis fossem independentes, era de se esperar que o comportamento da última coluna fosse repetido, ou pelo menos muito próximo do comportamento das outras colunas (que o número de casos de sarampo não interferisse no comportamento dos casos diários de difteria). Entretanto, observe que o comportamento das variáveis é bem distinto. Portanto, podemos concluir que há, sim, algum tipo de dependência entre elas, isto é, o aparecimento de casos de sarampo, por alguma razão, interfere no número de aparecimentos de casos de difteria na unidade de saúde em questão. EXEMPLO 2: Considere a seguinte tabela conjunta que apresenta o gênero dos turistas em relação à sua procedência (Adaptado de: Farhat; Elian (2006)). TABELA 53 – PERFIL DOS TURISTAS DA REGIÃO Gênero Região de Procedência TOTAL Perto Longe Feminino 6 7 13 Masculino 4 5 9 TOTAL 10 12 22 FONTE: A autora. Vamos ver se as variáveis estão relacionadas, isto é, se existe dependência entre as duas. Para isso, consideremos a tabela de porcentagens por coluna: UNIDADE 3 TÓPICO 1 131 M É T O D O S Q U A N T I T A T I V O S TABELA 54 – PERFIL DOS TURISTAS DA REGIÃO Gênero Região de Procedência TOTAL Perto Longe Feminino 60,00% 58,33% 59,09% Masculino 40,00% 41,67% 40,91% TOTAL 100,00% 100,00% 100,00% FONTE: A autora. Embora os números sejam diferentes, observe que eles são muito próximos. É possível concluir que haja independência entre elas, ou seja, a região de procedência do turista nada tem a ver com o seu gênero. Dificilmente, mesmo em caso de independência de variáveis, os valores das porcentagens em colunas diferentes serão exatamente iguais – estamos lidando com dados estatísticos. Assim, existem medidas matemáticas que nos dizem se as diferenças entre valores são suficientemente pequenas para concluirmos pela independência ou não entre as variáveis: uma delas é o Q2. Essas medidas fogem do escopo deste livro, mas você pode encontrar mais detalhes sobre o Q2 e sua análise em Magalhães e Lima (2010). 4 A CORRELAÇÃO Embora tenhamos concluído pela dependência ou não de variáveis nos exemplos anteriores analisando a tabela de distribuição conjunta, não conseguimos medir esta dependência. Por exemplo, aparentemente, havia relação entre as variáveis ‘difteria’ e ‘sarampo’, mas que tipo de dependência há entre elas? Quando o número de casos de uma aumenta, o da outra também aumenta? Em que proporção isso acontece? Conforme já dissemos, estas questões não são simples de responder,mas no caso de variáveis quantitativas, uma análise gráfica pode ajudar. 4.1 DIAGRAMA DE DISPERSÃO Para iniciar nossa discussão, consideremos uma amostra aleatória das notas de Cálculo e Estatística de 12 estudantes do curso de Engenharia Elétrica de determinada universidade: UNIDADE 3TÓPICO 1132 M É T O D O S Q U A N T I T A T I V O S TABELA 55 – GRÁFICO DE DISPERSÃO Estudante Nota Cálculo Nota Estatística 1 4 5 2 6 7 3 7 8 4 6 5 5 9 9 6 8 8 7 8 5 8 2 4 9 2 5 10 5 4 11 4 6 12 9 8 FONTE: Novaes e Coutinho (2009) Queremos saber se há relação entre o desempenho em Cálculo e Estatística. Para isso, vamos traçar o gráfico de dispersão entre as duas variáveis. O primeiro passo é definirmos qual das variáveis ocupará a posição do eixo das abscissas (eixo horizontal X) e qual ocupará a posição do eixo das ordenadas (eixo vertical Y). Vamos considerar a variável X como sendo ‘nota de Cálculo’ e a variável Y como sendo ‘nota de Estatística’. Assim, os valores associados à nota de Cálculo comporão as coordenadas x e os valores associados à nota de Estatística comporão as coordenadas y no par ordenado (x, y). FIGURA 37 – GRÁFICO DE DISPERSÃO FONTE: Tabela 55 UNIDADE 3 TÓPICO 1 133 M É T O D O S Q U A N T I T A T I V O S O gráfico de dispersão dos dados anteriores nos mostra que há uma relação entre as notas em Estatística e Cálculo: aparentemente, os alunos com maiores notas em Cálculo obtêm melhores notas em Estatística e vice-versa. Assim, podemos arriscar a dizer que as variáveis são correlacionadas. Segundo Crespo (2009, p. 147), podemos dividir os casos de correlação entre variáveis em três: • Correlação linear positiva: quando o aumento da variável independente X implica um aumento na variável dependente Y. • Correlação linear negativa: quando o aumento da variável independente X implica uma diminuição na variável dependente Y. • Correlação não linear: quando parece ter algum tipo de relação entre as variáveis, em formato de ‘curva’. FIGURA 38 – TIPOS DE CORRELAÇÃO FONTE: Crespo (2009, p. 147) Mas será que é possível medir esta correlação entre variáveis? 4.2 COEFICIENTE DE CORRELAÇÃO Vamos agora apresentar uma maneira de medir a correlação linear entre duas variáveis, chamado de coeficiente de correlação de Pearson, ou coeficiente de correlação linear. UNIDADE 3TÓPICO 1134 M É T O D O S Q U A N T I T A T I V O S Formalmente, se X e Y são duas variáveis discretas definidas a partir do mesmo fenômeno, com valores atribuídos definimos o coeficiente de correlação de Pearson por: UNI O s í m b o l o s i g n i f i c a s o m a t ó r i o , o u s e j a , . Note que a maior dependência que poderia ocorrer entre duas variáveis X e Y seria X se comportar exatamente como Y: cada aumento da variável X representasse um aumento de mesma quantidade de Y, ou uma diminuição de mesma quantidade de Y. Em termos de correlação, isto significa que Já no caso de X e Y serem independentes linearmente, r = 0. Segundo Oliveira (2010, p. 440), podemos considerar a seguinte escala para correlação: UNIDADE 3 TÓPICO 1 135 M É T O D O S Q U A N T I T A T I V O S Observe que a fórmula da correlação linear é bastante trabalhosa. Entretanto, podemos utilizar uma tabela auxiliar para ajudar no cálculo, assim como fizemos para calcular a variância. Voltando aos dados da Tabela 55, e lembrando que X representa a variável ‘nota em Cálculo’ e Y representa a variável ‘nota em Estatística’, construímos a seguinte tabela auxiliar: TABELA 56 – TABELA AUXILIAR PARA O CÁLCULO DA CORRELAÇÃO i 1 4 5 16 25 20 2 6 7 36 49 42 3 7 8 49 64 56 4 6 5 36 25 30 5 9 9 81 81 81 6 8 8 64 64 64 7 8 5 64 25 40 8 2 4 4 16 8 9 2 5 4 25 10 10 5 4 25 16 20 11 4 6 16 36 24 12 9 8 81 64 72 TOTAL 70 74 476 490 467 FONTE: A autora. Da tabela auxiliar, temos: Agora podemos calcular o coeficiente: Observe que o valor encontrado para a correlação é relativamente alto, e é positivo. Isto significa que o aumento da variável X ‘notas em Cálculo’ implica um aumento considerável da variável Y ‘notas em Estatística’. UNIDADE 3TÓPICO 1136 M É T O D O S Q U A N T I T A T I V O S EXEMPLO: A tabela a seguir exibe os dados sobre a quantidade vendida de certa mercadoria e os preços alcançados nos últimos meses. TABELA 57 – EXEMPLO DE CORRELAÇÃO LINEAR Mês Quantidade vendida (em milhares) Preço (em dólares) 1 50,0 4,9 2 68,4 4,8 3 65,3 4,7 4 69,0 4,6 5 82,3 4,5 6 109,1 4,4 7 99,9 4,3 8 128,6 4,2 9 180,0 4,1 10 200,5 4,0 FONTE: Silver (2000) Vamos montar o gráfico de dispersão para estas variáveis e calcular seu coeficiente de correlação linear. Interessa-nos descrever o comportamento do volume de vendas em relação ao preço - então o preço fará o papel da variável independente, enquanto o volume de vendas fará o papel da variável dependente. FIGURA 39 – DISPERSÃO DAS VENDAS EM FUNÇÃO DO PREÇO FONTE: Dados da Tabela 56 Aparentemente, há correlação entre as variáveis. Vamos calcular o coeficiente de correlação linear utilizando a tabela auxiliar. UNIDADE 3 TÓPICO 1 137 M É T O D O S Q U A N T I T A T I V O S TABELA 58 – TABELA AUXILIAR PARA O CÁLCULO DA CORRELAÇÃO i 1 4,9 50,0 24,0 2500,0 245,0 2 4,8 68,4 23,0 4678,6 328,3 3 4,7 65,3 22,1 4264,1 306,9 4 4,6 69,0 21,2 4761,0 317,4 5 4,5 82,3 20,3 6773,3 370,4 6 4,4 109,1 19,4 11902,8 480,0 7 4,3 99,9 18,5 9980,0 429,6 8 4,2 128,6 17,6 16538,0 540,1 9 4,1 180,0 16,8 32400,0 738,0 10 4,0 200,5 16,0 40200,3 802,0 TOTAL 44,5 1053,1 198,9 133998,0 4557,7 FONTE: A autora. Da tabela auxiliar, temos: n = 10 Substituindo estes valores na fórmula, encontramos r = - 0,93. Podemos concluir que há uma alta correlação entre as variáveis, sendo que o crescimento de uma (preço) provoca o decrescimento da outra (vendas). UNIDADE 3TÓPICO 1138 M É T O D O S Q U A N T I T A T I V O S RESUMO DO TÓPICO 1 Neste tópico estudamos o comportamento de duas variáveis ao mesmo tempo, procurando estabelecer relações. Mais precisamente, vimos que: • Construir uma tabela de dupla entrada ajuda na apresentação dos dados de duas variáveis. • Duas variáveis possuem dependência entre si se o comportamento de uma afeta o comportamento da outra. • A tabela de porcentagens por coluna ajuda a verificar se há ou não dependência entre duas variáveis. • Para variáveis quantitativas, utilizamos o diagrama de dispersão. • Duas variáveis podem não estar correlacionadas, podem estar linearmente correlacionadas (positiva ou negativamente) ou podem estar não linearmente correlacionadas. • O coeficiente de correlação de Pearson, denotado por r, nos indica se há correlação linear entre duas variáveis. UNIDADE 3 TÓPICO 1 139 M É T O D O S Q U A N T I T A T I V O S AUT OAT IVID ADE � Vamos exercitar os conhecimentos adquiridos neste tópico? Resolva os seguintes exercícios: 1 Uma empresa deseja investigar quantos dos seus funcionários são fumantes e qual o seu perfil. Neste sentido, aplicou um questionário para seus 24 funcionários. A seguir, você pode ver o resultado da pesquisa: In di ví du o S ex o H áb ito d e fu m ar Id ad e E sc ol ar id ad e C ar go S al ár io (e m R $) 1 M Sim 18 Fundamental Ajudantes 900,00 2 M Não 17 Médio Ajudantes 1056,00 3 M Não 18 Médio Ajudantes 1356,00 4 M Não 19 Fundamental Ajudantes 1500,00 5 F Não 32 Superior Chefia 10500,00 6 F Não 35 Superior Chefia 11400,00 7 M Sim 15 Fundamental Ajudantes 1056,00 8 F Sim 17 Fundamental Ajudantes 1056,00 9 M Não 19 Médio Escriturários 2430,0010 M Não 20 Médio Escriturários 2550,00 11 F Não 22 Médio Escriturários 2940,00 12 M Sim 45 Superior Chefia 13500,00 13 M Sim 18 Fundamental Ajudantes 1110,00 14 M Não 17 Médio Ajudantes 1056,00 15 M Não 18 Médio Ajudantes 1350,00 16 M Não 19 Fundamental Ajudantes 1500,00 17 F Não 36 Superior Chefia 10500,00 18 F Não 35 Superior Chefia 11400,00 19 M Sim 15 Fundamental Ajudantes 1056,00 20 F Sim 17 Fundamental Ajudantes 1056,00 21 M Não 19 Médio Escriturários 2430,00 22 M Não 20 Médio Escriturários 2430,00 23 F Não 22 Médio Escriturários 2940,00 24 M Sim 40 Superior Chefia 13500,00 UNIDADE 3TÓPICO 1140 M É T O D O S Q U A N T I T A T I V O S Com base nos dados da tabela, monte as seguintes distribuições conjuntas e conclua se há dependência entre as variáveis: a) Hábito de fumar em relação ao gênero. b) Idade em relação ao hábito de fumar. c) Idade em relação ao gênero. d) Cargo em relação ao hábito de fumar. e) Sexo em relação ao cargo. f) Faixa salarial em relação ao hábito de fumar. FONTE: Adaptado de: Farhat e Elian (2006) 2 Sabe-se que alguns supermercados colocam uma mercadoria em oferta e aumentam levemente o preço das outras que podem ser compradas como complemento. Assim, quem compra macarrão pode necessitar também do molho do tomate. Uma pesquisa teve o objetivo de observar se havia correlação entre o preço do macarrão em oferta e do molho de tomate em dez supermercados. Os preços praticados estão na tabela a seguir: Preço do Macarrão Preço do molho de tomate 2,00 1,20 2,30 1,40 2,50 1,75 2,60 2,00 2,80 2,20 3,00 2,40 3,20 2,70 3,25 3,00 3,30 3,20 3,50 4,00 As duas séries de preços estão correlacionadas? Justifique. FONTE: Adaptado de: Novaes e Coutinho (2009) 3 A tabela a seguir apresenta os dados referentes a áreas de terrenos em metros quadrados com seus respectivos preços de venda em mil reais de uma determinada região de São Paulo. UNIDADE 3 TÓPICO 1 141 M É T O D O S Q U A N T I T A T I V O S Área dos terrenos (m2) Preço de venda (mil reais) 40 42 60 58 60 58 60 70 80 80 100 90 115 100 130 102 138 130 150 130 160 140 Há correlação entre os dados? Justifique. FONTE: Adaptado de: Farhat e Elian (2006). UNIDADE 3TÓPICO 1142 M É T O D O S Q U A N T I T A T I V O S M É T O D O S Q U A N T I T A T I V O S REGRESSÃO LINEAR 1 INTRODUÇÃO TÓPICO 2 Neste tópico daremos prosseguimento ao que começamos a estudar no tópico anterior. Lá, aprendemos a verificar se duas variáveis quantitativas possuem algum tipo de dependência entre si, ou seja, se há correlação entre elas. Voltemos ao exemplo em que foram comparados o volume de vendas e o preço de determinada mercadoria. Traçamos o gráfico de dispersão da situação e calculamos sua correlação. UNIDADE 3 FIGURA 40 – DISPERSÃO DAS VENDAS EM FUNÇÃO DO PREÇO FONTE: A autora. UNIDADE 3TÓPICO 2144 M É T O D O S Q U A N T I T A T I V O S Uma vez que há correlação linear entre as variáveis, nosso objetivo agora será encontrar a equação da reta que melhor descreve esta situação. De posse desta equação, poderemos utilizá-la para obter informações que não foram observadas diretamente, mas que podem ser obtidas da análise gráfica. Por exemplo, na pesquisa, não foi mencionada a quantidade de vendas se o preço da mercadoria fosse 5 dólares, mas se tivermos a equação da reta que melhor aproxima os pontos, poderemos encontrar uma aproximação muito boa para este valor. Do mesmo modo, se quisermos ter uma ideia da quantidade de vendas esperadas, caso o valor da mercadoria fosse de 3,5 dólares. Vamos então aprender as técnicas para encontrarmos a reta que melhor aproxima os pontos observados. Esta técnica é conhecida como regressão linear e o método para encontrá- la recebe o nome de método dos mínimos quadrados. Queremos aproximar os dados do gráfico de dispersão por meio de uma reta, cuja equação é da forma y = α + β∙x, onde α é chamado de coeficiente linear da reta e β é chamado de coeficiente angular da reta. Estes valores α e β são constantes e são eles que a caracterizam: cada reta tem um valor para α e um valor para β fixos. Para traçar a reta, vamos então fornecendo valores para x (variável independente) e encontrando um único y tal que y = α + β∙x. UNI É importante lembrar que α e β são duas letras gregas, chamadas alfa e beta. Voltemos agora para a nossa situação inicial e vamos traçar uma reta que, aparentemente, se aproxima de todos os pontos observados da melhor maneira possível (este procedimento se chama regressão linear). Provavelmente, nenhum dos pontos da amostra pertence à reta, conforme você pode observar. Assim, para cada da amostra, teremos , onde é o erro cometido – a distância entre a reta e cada - também chamado de resíduo. UNIDADE 3 TÓPICO 2 145 M É T O D O S Q U A N T I T A T I V O S FIGURA 41 – RETA QUE MELHOR APROXIMA DOS DADOS E RESÍDUOS FONTE: A autora. O modelo de regressão linear supõe que a média dos valores deve ser zero. Como consequência, Assim, temos dois valores para serem encontrados, α e β. Da matemática básica sabemos que, quando precisamos encontrar duas incógnitas, precisamos de um sistema com duas equações que as envolvam. O modelo de regressão linear nos forneceu uma das equações: Precisamos de mais uma relação entre α e β para podermos encontrá-los. UNIDADE 3TÓPICO 2146 M É T O D O S Q U A N T I T A T I V O S 2 MÉTODO DOS MÍNIMOS QUADRADOS Vamos encontrar outra relação que nos auxilie a encontrar os valores de α e β. Para que a média dos valores seja zero, temos que Como n é o tamanho da amostra e, portanto, não é zero, Mas, para cada i, quem é ? Uma vez que se considerarmos veremos que para cada i. Portanto, se a soma dos resíduos deve ser zero, Mas este fato não garante que a reta seja a mais próxima possível, pois o resíduo encontrado para certo i pode anular um resíduo encontrado para certo j (i ≠ j). Observe a situação: FIGURA 42 – RESÍDUOS NA REGRESSÃO FONTE: A autora. Observe o desenho: os dois resíduos, embora grandes, possuem tamanho similar, mas sinais diferentes. Logo, quando forem somados, irão resultar em um número próximo de zero. Para contornar este problema, ao invés de minimizar a soma dos resíduos, vamos minimizar a soma do quadrado dos resíduos. Assim, teremos apenas valores positivos envolvidos no cálculo e, para que a soma resulte em um valor próximo de zero, cada um dos resíduos precisa ser muito pequeno. UNIDADE 3 TÓPICO 2 147 M É T O D O S Q U A N T I T A T I V O S O critério acima é conhecido como método dos mínimos quadrados. Através desta suposição e através de cálculos matemáticos, chegam-se às seguintes equações: Ou, de maneira mais condensada: UNI Como estamos utilizando dados de uma amostra para encontrar a equação da reta que melhor aproxima os dados, na verdade, estamos estimando a verdadeira equação da reta. Por esta razão, escrevemos Vamos então calcular a regressão linear para o problema do volume de vendas em relação ao preço, utilizando o método dos mínimos quadrados. A mesma tabela auxiliar que montamos para calcular a correlação nos ajuda no cálculo das variáveis α e β. UNIDADE 3TÓPICO 2148 M É T O D O S Q U A N T I T A T I V O S TABELA 59 – TABELA AUXILIAR PARA AJUSTE DE RETA i (preço) (vendas) 1 4,9 50,0 24,0 2500,0 245,0 2 4,8 68,4 23,0 4678,6 328,3 3 4,7 65,3 22,1 4264,1 306,9 4 4,6 69,0 21,2 4761,0 317,4 5 4,5 82,3 20,3 6773,3 370,4 6 4,4 109,1 19,4 11902,8 480,0 7 4,3 99,9 18,5 9980,0 429,6 8 4,2 128,6 17,6 16538,0 540,1 9 4,1 180,0 16,8 32400,0 738,0 10 4,0 200,5 16,040200,3 802,0 TOTAL 44,5 1053,1 198,9 133998,0 4557,7 FONTE: A autora. Assim, Assim, a reta que melhor aproxima os dados da amostra é dada pela equação EXEMPLO: Consideremos a situação proposta no tópico anterior, onde eram analisadas as notas em Estatística e em Cálculo obtidas pelos estudantes de Engenharia Elétrica de uma determinada universidade. Vimos que as variáveis X: nota em Cálculo e Y: nota em Estatística estavam correlacionadas linearmente. Vamos então utilizar o método de minimização dos quadrados para encontrar a reta que melhor aproxima os dados da amostra. A tabela auxiliar que construímos para calcular a correlação entre as variáveis era a seguinte: UNIDADE 3 TÓPICO 2 149 M É T O D O S Q U A N T I T A T I V O S TABELA 60 – TABELA AUXILIAR PARA AJUSTE DE RETA i (Notas em Cálculo) (Notas em Estatística) 1 4 5 16 25 20 2 6 7 36 49 42 3 7 8 49 64 56 4 6 5 36 25 30 5 9 9 81 81 81 6 8 8 64 64 64 7 8 5 64 25 40 8 2 4 4 16 8 9 2 5 4 25 10 10 5 4 25 16 20 11 4 6 16 36 24 12 9 8 81 64 72 TOTAL 70 74 476 490 467 FONTE: A autora. Assim, a reta que melhor aproxima os dados da amostra é dada pela equação UNIDADE 3TÓPICO 2150 M É T O D O S Q U A N T I T A T I V O S FIGURA 43 – RETA AJUSTADA – REGRESSÃO LINEAR FONTE: A autora. 3 ANÁLISE DA REGRESSÃO LINEAR A regressão linear é, portanto, a reta que melhor aproxima dos dados de uma amostra onde duas variáveis são analisadas conjuntamente. O que isto significa? Voltemos ao exemplo anterior, das notas em Cálculo e em Estatística. O modelo de regressão linear nos forneceu a seguinte equação: Note que o valor de α – no caso, α = 3,121 – independe de X. Isto significa que mesmo sem nota em cálculo, é de se esperar que o aluno obtenha nota 3,122, ou seja, é a nota inicial em estatística segundo o modelo. Já a constante β – no caso, β = 0,522 – nos fornece a proporção com que Y varia quando X varia. Neste caso, cada alteração na nota de Cálculo (X) altera a nota de Estatística a uma proporção de 0,522 (ou 52,20%). É claro que a reta não descreve exatamente o comportamento da relação entre as variáveis, mas dá uma estimativa para o comportamento conjunto delas. No exemplo anterior, das notas em Cálculo e Estatística, se procurarmos a nota de Estatística (variável Y) correspondente à nota 6 em Cálculo (variável X) na reta, encontraremos ou seja, de acordo com a equação da reta, quem tem nota 6 em Cálculo obtém nota 6,25 em estatística. Por outro lado, na amostra, dois estudantes tiraram 6 em Cálculo: um tirou 5 em estatística e UNIDADE 3 TÓPICO 2 151 M É T O D O S Q U A N T I T A T I V O S o outro tirou 7! O fato dos valores observados serem diferentes do obtido via regressão não significa que houve erro no cálculo, pois são informações diferentes: o dado obtido via equação é uma estimativa. Este exemplo ilustra o cuidado que devemos ter ao trabalharmos com a linearização: a regressão é uma estimativa que descreve o comportamento conjunto dos dados, mas não significa que podemos replicar os dados da amostra com ela. Por outro lado, a equação é bastante útil para tirarmos informações sobre dados que não dispomos. 3.1 INTERPOLAÇÃO E EXTRAPOLAÇÃO Suponhamos que estivéssemos interessados em obter uma estimativa para a nota de um estudante que obteve 4,5 em Cálculo. Nenhum dos estudantes que fez parte da amostra obteve esta nota e, portanto, não podemos utilizar informações da tabela de distribuição. Por outro lado, podemos estimar um valor para ela através da equação da reta: Assim, é estimado que este estudante tenha tirado 5,47, ou 5,5 em Estatística. Note que, na amostra, os dados de x variavam de 2 a 9, ou seja, x pertence ao intervalo fechado [2, 9]. Portanto, embora não faça parte da amostra, x = 4,5 também pertence a este intervalo, pois é maior do que 2 e menor do que 9. Quando o valor y que pretendemos estimar estiver associado a um valor x pertencente ao intervalo de valores da amostra, damos nome a este processo de interpolação. E se quiséssemos estimar a nota em estatística de um estudante que obteve 10 em Cálculo? Embora o valor 10 não faça parte do intervalo de valores para x da amostra, o fato de estarmos aproximando os dados por uma reta (regressão linear) implica podermos estimar a nota em estatística via equação. Neste caso, Assim, é estimado que o estudante que tenha nota 10 em Cálculo, tenha nota 8,3 em Estatística. Quando o valor y que pretendemos estimar estiver associado a um valor x não pertencente ao intervalo de valores da amostra, damos nome a este processo de extrapolação. UNIDADE 3TÓPICO 2152 M É T O D O S Q U A N T I T A T I V O S Para a interpolação, qualquer valor estudado é aceitável, uma vez que ele pertence ao intervalo da amostra; já no caso da extrapolação, precisamos ter alguns cuidados. Embora a reta esteja definida para qualquer número real (propriedade de reta), o significado da variável impõe restrições aos valores estudados. Por exemplo, no caso das notas de Cálculo, embora matematicamente possível, não tem sentido supormos notas superiores a 10 (supondo 10 a nota máxima) ou inferiores a 0. EXEMPLO: Vamos voltar ao exemplo do volume de vendas associado ao preço da mercadoria. TABELA 61 – EXEMPLO DE CORRELAÇÃO LINEAR Mês Preço (em dólares) Quantidade vendida (em milhares) 1 4,9 50,0 2 4,8 68,4 3 4,7 65,3 4 4,6 69,0 5 4,5 82,3 6 4,4 109,1 7 4,3 99,9 8 4,2 128,6 9 4,1 180,0 10 4,0 200,5 FONTE: Silver (2000) Já realizamos a regressão linear para esta situação, e encontramos a seguinte equação da reta: Se quisermos estimar o volume de vendas caso o preço da mercadoria fosse de 6 dólares, teríamos que Note que, embora os cálculos estejam corretos, o valor encontrado é negativo, o que não faz sentido, uma vez que a variável Y está associada a quantidades. Por outro lado, fica evidente que cobrar 6 dólares pela mercadoria seria inviável. Vamos encontrar o valor em dólares para o qual a quantidade vendida seria nula? Nesse caso, y = 0. UNIDADE 3 TÓPICO 2 153 M É T O D O S Q U A N T I T A T I V O S Assim, concluímos que a mercadoria não pode custar mais do que 5,12 dólares. 3.2 COEFICIENTE DE DETERMINAÇÃO Outro ponto que merece destaque diz respeito à confiabilidade dos dados estimados via regressão linear. Como saber se eles são confiáveis? Segundo Crespo (2009), só faz sentido fazermos a regressão linear se há, de fato, correlação entre as variáveis e se esta correlação é relativamente alta. Por esta razão, o primeiro passo ao estudarmos duas variáveis conjuntamente é calcular a coeficiente de correlação linear entre elas. O coeficiente de correlação nos dá uma preciosa informação: ele fornece uma medida de quanto de uma variável é explicada linearmente pela outra variável. Esta medida se chama coeficiente de determinação (ou coeficiente de explicação), e corresponde a R2 = r2 onde r é o coeficiente de correlação linear que já estudamos. Aplicando ao exemplo anterior, sobre a quantidade de vendas em relação ao preço da mercadoria, havíamos concluído que, para este caso, r = - 0,93. Assim, o coeficiente de determinação é de R2 = (-0,93)2 = 0,8649. Segundo Silver (2000), este valor mostra que a proporção da variação de Y – no caso, a quantidade de vendas - explicada pelo modelo é de 0,8649, isto é, de 86,49%. Portanto, apenas (100% - 86,49%) = 13,51% da variação na quantidade de vendas é explicada por outros fatores que não a relação linear estabelecida pelo modelo com a variação do preço. No caso da relação entre as notas em Cálculo e Estatística, r = 0,7403. Assim, R2 = (0,7403)2 = 0,5480. Assim, as notas em Estatística são explicadas pelo modelo de regressãolinear na proporção de 54,80%: 45,20% da variação nas notas de Estatística é explicada por outros fatores que não a relação linear estabelecida pelo modelo com as notas em Cálculo. UNIDADE 3TÓPICO 2154 M É T O D O S Q U A N T I T A T I V O S RESUMO DO TÓPICO 2 Neste tópico, estudamos a regressão linear por meio do método dos mínimos quadrados. Mais precisamente, vimos que: • Regressão linear consiste em traçar uma reta que se aproxime de todos os pontos observados da melhor maneira possível, cuja equação é da forma y = α + β∙x, onde α é chamado de coeficiente linear da reta e β é chamado de coeficiente angular da reta. • Os valores α e β são constantes e são eles que caracterizam a reta e, portanto, são eles que devem ser encontrados. • O método dos mínimos quadrados consiste em um método matemático que permite encontrar α e β, de modo que a soma dos quadrados dos resíduos seja a menor possível. • Interpolação é o processo de, dado um valor para x pertencente ao intervalo da amostra, encontrar um valor estimado para y via regressão linear. • Extrapolação é o processo de, dado um valor para x não pertencente ao intervalo da amostra, encontrar um valor estimado para y via regressão linear. • Sempre é possível interpolar, mas é preciso cuidado na hora de extrapolar! • O coeficiente de determinação é obtido através do coeficiente de correlação e nos fornece a proporção com que a variação da variável Y é explicada pelo modelo de regressão linear. UNIDADE 3 TÓPICO 2 155 M É T O D O S Q U A N T I T A T I V O S AUT OAT IVID ADE � 1 Uma agência de turismo especializada em oferecer passeios opcionais para turistas que visitam determinada região está estudando a variação na adesão a determinado pacote quando são acrescentados ou tirados percursos do preço cobrado, obtendo as seguintes informações: Preço ($) Número de adesões 10 50 15 51 20 48 25 43 30 42 35 45 40 39 45 38 50 40 55 34 60 32 70 30 90 25 a) Faça o gráfico de dispersão. b) Há correlação linear entre os dados? Justifique. c) Encontre a função matemática que explique a dependência entre o número de adesões e o preço do passeio opcional. d) Estime o número de pessoas que farão o passeio opcional se o valor cobrado for de 80 reais. e) Encontre a proporção com que a variação no número de ações é explicada linearmente pelo preço da mesma. FONTE: Adaptado de: Novaes e Coutinho (2009) 2 custo mensal de manutenção de determinado tipo de automóvel (excluindo-se combustível e troca de óleo) está sendo analisado em função da idade do veículo. Nove automóveis fabricados em diferentes anos tiveram o custo averiguado e os dados obtidos foram os seguintes: UNIDADE 3TÓPICO 2156 M É T O D O S Q U A N T I T A T I V O S Idade do veículo (anos) Custo mensal (reais) 1 8 2 13 3 18 4 28 5 24 6 26 7 29 8 32 9 37 a) Trace o gráfico de dispersão. b) Calcule o coeficiente de determinação. c) Faça a regressão linear e encontre a equação da reta melhor ajustada. d) Com base no modelo de regressão linear, qual é o custo mensal de um carro com 12 anos de uso? FONTE: Adaptado de: Magalhães e Lima (2010) 3 Uma indústria submete seus novos operários a um teste de aptidão (X) e três meses depois mede a produtividade destes operários (Y). Os resultados estão na tabela a seguir: Operário Aptidão(X) Produtividade (Y) A 22 45 B 25 37 C 15 25 D 19 40 E 22 33 F 18 30 a) Faça o diagrama de dispersão e calcule o coeficiente de correlação. b) Encontre a equação da reta de regressão. c) Para um indivíduo cujo resultado no teste de aptidão foi 20, qual é a produtividade esperada? d) Para um indivíduo que obteve 28 no teste de produtividade, qual é o resultado no teste de aptidão? FONTE: Adaptado de: Magalhães e Lima (2010) 4 Certa empresa, estudando a variação da demanda do seu produto em relação à variação de preço de venda (em unidades monetárias), obteve os seguintes dados: UNIDADE 3 TÓPICO 3 157 M É T O D O S Q U A N T I T A T I V O S Preço (u.m.) Demanda 38 350 42 325 50 297 56 270 59 256 63 246 70 238 80 223 95 215 110 208 a) Determine os coeficientes de correlação e de determinação entre as variáveis. b) Encontre a equação da reta ajustada. c) Se o preço de venda for 75 u.m., qual é a demanda estimada? d) Se o preço de venda for de 110 u.m., qual é a demanda estimada? e) Qual é o valor máximo de preço possível para que haja demanda? FONTE: Adaptado de: Crespo (2009) UNIDADE 3TÓPICO 3158 M É T O D O S Q U A N T I T A T I V O S M É T O D O S Q U A N T I T A T I V O S REGRESSÃO MÚLTIPLA 1 INTRODUÇÃO TÓPICO 3 Nos tópicos anteriores, vimos que é possível medir a correlação linear entre duas variáveis e, se elas estiverem de fato correlacionadas, ajustar uma reta de regressão entre elas. Algumas vezes, os problemas que queremos estudar envolvem mais de duas variáveis, e precisamos saber se a variação de uma influencia na variação das outras. Um bom exemplo disso é a composição de carteiras de investimento. Normalmente, há mais de uma ação na carteira, e o seu rendimento é afetado pelo rendimento das ações que a compõem. Nestes casos, é interessante para o investidor saber quanto a variação de retorno de cada ação interfere na variação de retorno da carteira em si. Dependendo da resposta, o investidor pode mexer na composição da carteira, seja pelo aporte de valores em determinada ação (a compra de mais ações de uma mesma companhia), seja a composição em si da carteira. Neste tópico, iremos estudar a regressão múltipla, que consiste em encontrar uma equação matemática (no caso, a equação de um plano) que descreva o comportamento de uma variável em função de várias outras. Assim, podemos ver a regressão linear como um caso particular da regressão múltipla. UNIDADE 3 2 O PLANO DE REGRESSÃO Suponhamos que o volume de vendas de um produto de determinada empresa foi estabelecido em função de duas variáveis: custo total e gastos com publicidade em unidades monetárias. O quadro a seguir apresenta os dados observados: UNIDADE 3TÓPICO 3160 M É T O D O S Q U A N T I T A T I V O S TABELA 62 – REGRESSÃO MÚLTIPLA Período Vendas Custo Total G a s t o s c o m publicidade 1 10 20 5 2 20 18 8 3 30 15 10 4 40 13 15 5 50 10 17 6 55 9 20 FONTE: Oliveira (2010). Como queremos descrever o volume de vendas em função do custo total e do gasto com publicidade, consideraremos as vendas como sendo a variável dependente Y (pois ela depende das outras duas), e as outras duas variáveis como variáveis independentes X1 e X2 respectivamente. A ideia da regressão múltipla é encontrar a equação do plano Y = α + β1∙X1 + β2∙X2 que melhor aproxime os dados da amostra. Assim como na regressão linear, precisamos então encontrar valores para as constantes α, β1 e β2 que caracterizam este plano, e utilizaremos o que temos, isto é, os dados da amostra, para estimá-las. Novamente, é provável que nenhum dos pontos da amostra pertença ao plano (pelo menos um provavelmente não pertencerá). Assim, para cada i, teremos onde é o erro cometido – a distância entre o plano e cada – isto é, o resíduo. Assim, para cada i, Da mesma maneira que fizemos para regressão linear, queremos minimizar o erro cometido. Então vamos impor que a soma dos quadrados dos erros seja mínima, isto é, Através desta suposição e através de cálculos matemáticos, chega-se às seguintes equações: UNIDADE 3 TÓPICO 3 161 M É T O D O S Q U A N T I T A T I V O S De acordo com Oliveira (2010), isolando α na terceira equação e substituindo seu valor nas demais, chegamos a uma maneiramais fácil de fazermos as contas: Voltando ao nosso exemplo, vamos construir nossa tabela auxiliar: TABELA 63 – TABELA AUXILIAR PARA REGRESSÃO MÚLTIPLA i 1 10 20 5 400 25 200 50 100 2 20 18 8 324 64 360 160 144 3 30 15 10 225 100 450 300 150 4 40 13 15 169 225 520 600 195 5 50 10 17 100 289 500 850 170 6 55 9 20 81 400 495 1100 180 TOTAL 205 85 75 1299 1103 2525 3060 939 FONTE: A autora UNIDADE 3TÓPICO 3162 M É T O D O S Q U A N T I T A T I V O S Assim, Substituindo estes valores no sistema, temos que: Ou ainda Resolvendo este sistema, encontraremos Falta encontrarmos α. Mas Logo Portanto, a equação do plano estimado que minimiza os erros é dada por UNIDADE 3 TÓPICO 3 163 M É T O D O S Q U A N T I T A T I V O S Se estivermos interessados em estimar o volume de vendas, dado que o custo total foi 17 e os gastos com propagando totalizaram 20 unidades monetárias, basta substituir estes valores na equação: O mesmo processo feito para estudarmos o comportamento de uma variável estatística frente a outras duas pode ser estendido para três ou mais variáveis, entretanto, a dificuldade de trabalhar com os cálculos necessários para estimar a regressão é considerável. Nestes casos, um software estatístico, ou mesmo o Excel pode ajudar. LEITURA COMPLEMENTAR O USO DE DADOS DO IBGE PARA PESQUISAS O IBGE é o Instituto Brasileiro de Geografia e Estatística, responsável de coletar e divulgar dados e informações sobre o país em diversos segmentos da sociedade, bem como dar subsídio para os governos federal, estadual e municipal na tomada de decisões. Seu objetivo principal é “retratar o Brasil com informações necessárias ao conhecimento da sua realidade e ao exercício da cidadania”, segundo o sítio eletrônico no qual ficam disponibilizados todos os dados. Uma dica valiosa para quem gosta e se interessa por estatística é consultar o sitio eletrônico do IBGE (<www.ibge.gov.br>) e acessar o Brasil em Síntese. Este canal possibilita acesso a dados resumidos e pode servir para ilustrar, subsidiar ou mesmo nortear trabalhos e pesquisas na área da administração (e áreas afins). O Brasil em Síntese reúne informações que permitem traçar um panorama nacional sob a forma de gráficos e tabelas, apresenta dados sobre território, população, educação, trabalho, habitação, agropecuária, indústria, comércio, serviços e contas nacionais. FONTE: IBGE. Disponível em <http://brasilemsintese.ibge.gov.br/>. Acesso em: 7 fev. 2014. A investigação sobre serviços vem crescendo imensamente nas últimas décadas no mundo inteiro, destacando-se pela representatividade no Produto Interno Bruto (PIB), 47,4%, em 2012. O avanço deste setor no processo de crescimento da economia é relevante devido a sua geração de renda e emprego. Trata-se de um setor heterogêneo, tanto no que se refere ao desempenho das empresas, como ao nível de integração aos processos de inovação e ao uso de tecnologia, apresentando ainda distintos perfis de ocupação de pessoal. Neste contexto, a Pesquisa Anual de Serviços (PAS) fornece informações sobre a estrutura produtiva do setor de serviços formais não financeiros no Brasil, possibilitando diversos estudos e análises. UNIDADE 3TÓPICO 3164 M É T O D O S Q U A N T I T A T I V O S O segmento de transportes, serviços auxiliares aos transportes e correio foi responsável pela maior parcela da receita operacional líquida gerada no setor de serviços em 2010. Em relação ao número de empresas, destacam-se os serviços prestados às famílias Além de sua expressividade em termos de receita operacional líquida e número de empresas, os serviços profissionais, administrativos e complementares representaram a maior parcela do valor adicionado, da massa salarial e do pessoal ocupado. Analisando o período de 2007 a 2011, quando a economia apresentou uma redução da taxa de crescimento real2 no biênio 2008-2009 e uma recuperação no biênio posterior, observa-se um crescimento real de 31,6% da receita operacional líquida das empresas de serviços. Destacam-se quatro segmentos que alcançaram, no período, variação superior a este resultado: serviços de manutenção e reparação (63,0%); atividades imobiliárias (59,8%); serviços prestados principalmente às famílias e serviços profissionais, administrativos e complementares (ambos com 44,9%). A recuperação da economia baseou-se no dinamismo do mercado interno, com reflexos sobre o setor de serviços. FONTE: IBGE. Disponível em <http://brasilemsintese.ibge.gov.br/servicos>. Acesso em: 7 fev. 2014. Como você pode perceber, é possível e conveniente, além de confiável, utilizar nas suas pesquisas para trabalhos da graduação, ou mesmo de uma futura pós-graduação, dados do IBGE. Isto, dentre as cinco fases do método estatístico caracterizará uma coleta de dados indireta, pois você estará se apropriando de dados já coletados por alguém. Abaixo você pode conferir alguns exemplos de dados provenientes da pesquisa do IBGE acerca do setor de serviços. Observe que tais dados estão dispostos em quadros, porém no site do Brasil em Síntese (gerenciado pelo IBGE), há possibilidade de visualizar também o gráfico proveniente destes quadros. Optou-se por apresentar, nesta leitura, o formato quadro, por conta da fácil leitura e compreensão de todos os acadêmicos. Exemplos de dados para utilização em pesquisas No Quadro 1 você pode visualizar o número de empresas no segmento de serviços, no Quadro 2 o número de pessoas que atuam em cada segmento do setor de serviços e no Quadro 3 a receita obtida pelo total de empresas de cada segmento do setor de serviços. Os dados apresentados são da pesquisa de 2010 realizada pelo IBGE e divulgada pelo Brasil em Síntese. Com base nestes dados você poderá enriquecer um trabalho para uma disciplina ou mesmo o seu Trabalho de Graduação, caso queira optar por um tema. UNIDADE 3 TÓPICO 3 165 M É T O D O S Q U A N T I T A T I V O S Segmentos de serviços Número de empresas Transportes, serviços auxiliares aos transportes e correios 147.022 Atividades imobiliárias 28.065 Serviços profissionais, administrativos e complementares 296.944 Outras atividades de serviços 30.434 Serviços prestados às famílias 310.958 Serviços de informação e comunicação 81.767 Serviços de manutenção e reparação 97.618 Total 992.808 FONTE: IBGE. Disponível em: <http://brasilemsintese.ibge.gov.br/servicos/numero-de-empresas- por-segmento-de-servico>. Acesso em: 7 fev. 2014. QUADRO 1 – NÚMERO DE EMPRESAS SEGUNDO O SEGMENTO DE SERVIÇO – BRASIL – 2010 QUADRO 2 – NÚMERO DE PESSOAS OCUPADAS SEGUNDO O SEGMENTO DE SERVIÇO (EM MIL) – BRASIL 2010 Segmentos de serviços Pessoal Ocupado Serviços de informação e comunicação 800,542 Outras atividades de serviços 464,496 Serviços de manutenção e reparação 400,395 Serviços profissionais, administrativos e complementares 4.319,524 Serviços prestados às famílias 2.260,965 Transportes, serviços auxiliares aos transportes e correio 2.229,110 Atividades imobiliárias 146,754 Total 10.621,786 FONTE: IBGE. Disponível em <http://brasilemsintese.ibge.gov.br/servicos/pessoal-ocupado-por- segmento-de-servico>. Acesso em: 7 fev. 2014. QUADRO 3 – RECEITA (EM MIL R$) SEGUNDO O SEGMENTO DE SERVIÇO – BRASIL – 2010 Segmentos de serviços Receita Serviços de manutenção e reparação 15.285,281 Atividades imobiliárias 19.845,671 Serviços profissionais, administrativos e complementares 220.799,533 Serviços de informação e comunicação 233.541,222 Transportes, serviços auxiliares aos transportes e correios 251.117,852 Outras atividades de serviços 42.480,303 Serviços prestados às famílias 86.237,865 Total 869.308,728 FONTE: IBGE. Disponível em <http://brasilemsintese.ibge.gov.br/servicos/receita-por-segmento-de- servico>. Acesso em:7 fev. 2014. UNIDADE 3TÓPICO 3166 M É T O D O S Q U A N T I T A T I V O S RESUMO DO TÓPICO 3 Neste tópico, estudamos a regressão múltipla. Mais precisamente, vimos que: • A regressão múltipla consiste em encontrar uma equação matemática (no caso, a equação de um plano) que descreva o comportamento de uma variável em função de várias outras. • A regressão linear como um caso particular da regressão múltipla. • Aprendemos a calcular os coeficientes do plano de regressão. • Vimos que a teoria desenvolvida para o caso de duas variáveis independentes pode ser expandida para três ou mais. UNIDADE 3 TÓPICO 3 167 M É T O D O S Q U A N T I T A T I V O S AUT OAT IVID ADE � Vamos praticar os conhecimentos adquiridos? Resolva os exercícios a seguir: 1 Você recebeu informações sobre a porcentagem de ações no mercado, preços como porcentagem dos preços médios do competidor, e gastos com propaganda como porcentagem dos preços médios do competidor, para uma linha específica de comida para gatos, nos últimos oito anos. Os dados obtidos seguem a seguir: Período A ç õ e s n o Mercado (%) Preço Relativo P r o p a g a n d a relativa 1 30 89 110 2 31 85 115 3 30,5 86,5 120 4 29 92 114 5 29,5 90 112 6 28,5 102 115 7 28 115 116 8 26 125 114 a) Encontre a regressão múltipla que melhor estima o comportamento das ações no mercado em relação às outras duas variáveis. b) Se o preço relativo for de 120 e a propaganda for de 111, qual é a estimativa para a porcentagem de ações no mercado? FONTE: Adaptado de: Silver (2000) 2 Um conjunto de experimentos foi realizado para determinar uma maneira de prever o tempo de cozimento y em junção de vários níveis de largura do forno e da temperatura do gás. Os dados obtidos foram os seguintes: Experimento Tempo de cozimento L a r g u r a d o forno Temperatura do gás 1 6,40 1,32 1,15 2 15,05 2,69 3,40 3 18,75 3,56 4,10 UNIDADE 3TÓPICO 3168 M É T O D O S Q U A N T I T A T I V O S 4 30,25 4,41 8,75 5 44,85 5,35 14,82 6 48,94 6,20 15,15 7 51,55 7,12 15,32 8 61,50 8,87 18,18 9 100,44 9,80 35,19 10 111,42 10,65 40,40 Estime a equação da regressão múltipla. FONTE: Adaptado de: Silver (2000) 3 Um estudo foi conduzido para determinar se o peso de um animal pode ser previsto depois de um período com base no seu peso inicial e na quantidade de ração que ele comeu. Os dados obtidos, em quilogramas, estão na tabela a seguir: Animal Peso final Peso inicial Peso ração 1 95 42 272 2 77 33 226 3 80 33 259 4 100 45 292 5 97 39 311 6 70 36 183 7 50 32 173 8 80 41 236 9 92 40 230 10 84 38 235 a) Encontre a equação do plano que melhor ajuda os dados obtidos. b) Dê uma previsão para o peso final do animal que tinha como peso inicial 35 kg e foi alimentado com 250 kg de ração. UNIDADE 3 TÓPICO 3 169 M É T O D O S Q U A N T I T A T I V O S AVAL IAÇà O Prezado(a) acadêmico(a), agora que chegamos ao final da Unidade 3, você deverá fazer a Avaliação referente a esta unidade. UNIDADE 3TÓPICO 3170 M É T O D O S Q U A N T I T A T I V O S 171 M É T O D O S Q U A N T I T A T I V O S REFERÊNCIAS ARAÚJO FILHO, J. B. Arredondamento de valores numéricos: uma abordagem sobre a NBR 5891:1997:ABNT e a Resolução 886:1966:IBGE. Revista Administração em Debate, Rio de Janeiro, v. 8, p. 21-30. Disponível em: <http://www.cra-rj.adm.br/publicacoes/rad_08/conteudo/ files/assets/basic-html/page29.html>. Acesso em: 28 jan. 2014. CASTANHEIRA, N. P. Estatística aplicada a todos os níveis. 4. ed. Curitiba: IBPEX, 2008. CRESPO, A. A. Estatística fácil. 19. ed. São Paulo: Saraiva, 2009. FARHAT, C. A. V.; ELIAN, S. N. Estatística básica. São Paulo: LCTE, 2006. IBGE. Centro de Documentação e Disseminação de Informações. Normas de apresentação tabular. 3. Ed. Rio de Janeiro: IBGE, 1993. p.25-28 Disponível em: <http://biblioteca.ibge.gov. br/visualizacao/monografias/GEBIS%20-%20RJ/normastabular.pdf>. Acesso em: 28 jan. 2014. MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. São Paulo: Edusp, 2010. MORETTIN, L. G. Estatística básica: probabilidade e inferência. São Paulo: Pearson, 2010. NAVIDI, William. Probabilidade e estatística para ciências exatas. Porto Alegre: Bockmann, 2012. NOVAES, D. V; COUTINHO, S. QUEIROZ, C. Estatística para educação profissional. São Paulo: Atlas, 2009. OLIVEIRA, J. U. Estatística: uma nova abordagem. Rio de Janeiro: Ciência Moderna, 2010. SILVER, M. Estatística para administração. São Paulo: Atlas, 2000. TIBONI, C. G. R. Estatística básica: para os cursos de administração, ciências contábeis, tecnológicos. São Paulo: Atlas, 2010.