Baixe o app para aproveitar ainda mais
Prévia do material em texto
Antonio F. Beraldo Estatística Descritiva Compacta Estatística I Estatística Descritiva Antonio Fernando Beraldo Departamento de Estatística ICE — UFJF Versão Final Compacta — 2014 Coordenação, criação do ambiente gráfico e do repositório de arquivos, e programação em LATEX: Raphael de Freitas Saldanha Revisão e digitação: Ana Darc da Silva Bruno Alves Simões Diego Augusto Elisa Lancini Nogueira Letícia Vale de Lima Lucas Silva Novais Marcelle Souza Pinto Mirela Rigolon Valinote Natália Ferreira de Azevedo Paula Bottoni Ramon Goulart Rosiany Grosman Stéfani Ferreira Vanessa Castro Abreu Victor Lopes Costa Serra Willian Costa Apresentação Esta Apostila é o primeiro volume de um conjunto de textos preparados para os alunos dos cursos de Graduação e Pós-Graduação que possuem disciplinas de Estatística em sua grade curricular. Os textos abordam os seguintes temas: Apostila Conteúdo I Estatística Descritiva II Cálculo de Probabilidades III Teoria da Amostragem, Inferência e Testes Estatísticos Em cada capítulo das Apostilas procuramos sintetizar os conteúdos, em textos breves de exposição dos conceitos, seguidos de exemplos de aplicações das fórmulas. Outros materiais didáticos, referenciados no corpo das Apostilas, estão disponí- veis no site do Professor: http://www.ufjf.br/antonio_beraldo A. F. Beraldo iii Agradecimentos Este é um trabalho que reflete a experiência - e aprendizagem - do ensino de Estatística e a valiosíssima contribuição dos alunos nestes 23 anos de atividades na Universidade Federal de Juiz de Fora, como também a prática da aplicação da Estatística em dezenas de dissertações e teses de mestrandos e doutorandos de diversas IES do País. Sem esta contribuição, este trabalho não existiria. Em destaque, agradeço ao estímulo das professoras doutoras Martha de Oliveira Guerra e Vera Maria Peters, do Centro de Biologia da Reprodução; à paciência abnegada de Renata Márcia de Figueiredo, PhD, pela revisão do texto básico da edição inicial (1998); A todos os alunos que, com suas críticas e sugestões, me ensinaram o como, o quando e o quê. Esta primeira Apostila é dedicada, in memoriam, a meu pai. Wilson João Beraldo (1918 - 1994) A. F. Beraldo v Sumário Sumário vi 1 Introdução à Estatística 1 1.1 O Método Estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos . . . . . . . . . 21 2 Medidas Estatísticas de Tendência Central 31 2.1 Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.1.1 Média Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.1.2 Média Aritmética Ponderada . . . . . . . . . . . . . . . . . . . . . 33 2.1.3 Média Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.1.4 Média Harmônica . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.1.5 Propriedades da Média Aritmética . . . . . . . . . . . . . . . . . 38 2.2 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.3 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.4 Ponto Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3 Medidas Estatísticas de Dispersão 45 3.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.2 Desvios e Desvio Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.3 Variância e Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.4 Coeficiente de variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.5 Propriedades da variância . . . . . . . . . . . . . . . . . . . . . . . . . . 59 4 Estatística em Grandes Conjuntos: Distribuições de Frequências 61 4.1 Frequências Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.2 Frequências Relativas, o Histograma e os Polígonos de Frequência . . . . 67 4.3 Frequências Acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 4.4 Frequências Relativas Acumuladas e a Ogiva de Galton . . . . . . . . . . 75 5 Estatística em Grandes Conjuntos: Medidas de Tendência Central e Dispersão 81 5.1 Cálculo da Média: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.2 Cálculo da Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.3 Cálculo da Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 vi A. F. Beraldo SUMÁRIO 5.3.1 Roteiro para o cálculo da mediana . . . . . . . . . . . . . . . . . . 90 5.4 Cálculo da Variância, do Desvio Padrão e do Coeficiente de Variação . . 94 5.5 Exemplos Comentados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 6 Estatística em Grandes Conjuntos: Medidas de Posição 103 6.1 Cálculo de Quartis e Percentis . . . . . . . . . . . . . . . . . . . . . . . . 109 6.2 Determinação Gráfica das Separatrizes . . . . . . . . . . . . . . . . . . . 114 6.3 Determinação Gráfica de intervalos . . . . . . . . . . . . . . . . . . . . . 118 7 Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose 123 7.1 Simetria e Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 7.2 Medidas de Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 7.3 Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 8 Introdução à Análise Exploratória de Dados 145 8.1 Fundamentos da Análise Exploratória . . . . . . . . . . . . . . . . . . . . 145 8.2 Determinação dos Quartis: . . . . . . . . . . . . . . . . . . . . . . . . . . 149 8.3 Cálculo das Cercas e o Box-Plot . . . . . . . . . . . . . . . . . . . . . . . 152 A. F. Beraldo vii 1 Introdução à Estatística A Estatística é um conjunto de métodos que, utilizando procedimentos matemáti- cos, visa conhecer e descrever a realidade que nos cerca, analisar seus fenômenos naturais e sociais e organizar e fornecer informações de apoio às Ciências. A Estatística é uma das Matemáticas, assim como a Geometria, a Trigonometria e o Cálculo Integral. E não há, na vida contemporânea, praticamente nenhum setor de atividade humana em que não faça uso da Estatística. Os verbos da Estatística são: Contar Contar é o processo matemático mais primitivo para se conhecer a realidade. Provavelmente o processo de contagem começou há muitos milhares de anos atrás, junto com a descoberta do fogo e com o desenvolvimento das primeiras habilidades de caça. Segundo os especialistas1, o homem primitivo contava até 2 – acima desta quantidade, deveria existir um gesto para significar “muitos” (até hoje, algumas tribos primitivas contam no máximo até 3). Depois, talvez com auxílio dos dedos das mãos, formou-se aos poucos o sistema decimal. Com a evolução cultural e tecnológica, alguns povos adotaram sistemas diferentes, como o vintesimal (múltiplos de vinte2) e o sexagesimal3. Em pinturas rupestres e inscrições talhadas em pedras, vemos como nossos antepassados enumeravam os objetos do seu mundo – pedaços da sua “realidade”: membros do grupo, produtos agrícolas, animais domesticados, a caça abatida, etc. Mas, quando esta “realidade” se torna muito numerosa (muitas pessoas, muitos bens, rebanhos maiores), a contagem de seus componentes passa a ser bem mais trabalhosa. A Estatística começou quando o homem precisou enumerar (recensear) seus bens, seus rebanhos, a colheita e os exércitos. Estas informações sempre foram vitais para os reis e governantes, e as contagens eram feitas periodicamente, a seu mando. Temos notícias de levantamentos feitos na China, 2.000 anos a.C.,na Bíblia (informações sobre o contingente de soldados e armas do povo judeu), dos recenseamentos no Império 1Ver Boyer, História da Matemática, Ed. Edgar Blucher Ltda/USP, São Paulo, 1976. 2Como os franceses dizem “oitenta”? 3A “contagem” do tempo é feita, até hoje, neste sistema. Veja também as medidas utilizadas na trigonometria. A. F. Beraldo 1 1. Introdução à Estatística Romano (população e extensão territorial)4, das coletas de dados feitas pelos árabes no século VIII. Ainda na Idade Média, Carlos Magno, rei dos francos e Imperador do Ocidente, organizou o Estado a partir da contagem de seus súditos e de suas propriedades. Guilherme, o Conquistador, ordenou a elaboração do Domesday Book, um curioso catálogo dos bens do reino5 (Inglaterra, 1085-6) e de sua produção, para fins de coleta de impostos. Como se pode ver, a Estatística sempre foi associada ao Estado (daí seu nome). Ainda na Inglaterra, mas no séc. XVII temos o trabalho de um dos primeiros “demógrafos”, John Graunt, (1620-1674) que pesquisou o crescimento da população de Londres, a proporção entre os sexos das crianças e dos adultos, e a causa da morte de milhares de pessoas nas várias tabelas do livro Natural and Political Observations Made upon the Bills of Mortality (1662), que surpreende pela atualidade e pela metodologia6. Censos demográficos são realizados a cada 10 anos desde 1790 nos EUA, desde 1791 na França, e desde 1801 na Grã Bretanha. No Brasil em 1872, foi realizado o primeiro recenseamento nacional no país, o qual recebeu o nome de Recenseamento da População do Império do Brasil. Depois deste e até 1940, novas operações censitárias sucederam-se em 1890, 1900 e 1920. Em 1910 e em 1930, não foram realizados os recenseamentos7 4Os habitantes do Império Romano tinham que responder ao census na sua cidade de origem, e a punição para quem fugisse ou não respondesse era a pena de morte. Segundo a Bíblia, os pais de Jesus, Maria e José, tiveram que empreender uma viagem de Nazaré, na Galiléia, até Belém, na Judéia, para responder ao Censo ordenado por César. 5Está na Internet, transposto para o inglês de hoje: http://www.domesdaybook.co.uk/index. html. Se você lê bem em inglês, divirta-se. 6Veja o site http://www.edstephan.org/Graunt/graunt.html. 7Veja: http://www.ibge.gov.br/ibgeteen/censo2k/brasil.html 2 A. F. Beraldo A seguir, um histograma de frequência mostra a composição percentual da população brasileira segundo o Censo de 2010: Figura 1.1: População Brasileira Urbana (2010) distribuição percentual por faixas etárias Fonte: Pirâmide Etária, disponível em http://www.ibge.gov.br/censo2010/piramide_etaria/index.php Segundo o IBGE, o Censo Demográfico de 2010 contou uma população de 190.732.694 pessoas (Nov/2010). Cada 1% no gráfico acima corresponde a cerca de 1,9 milhões de habitantes. Em 10 anos, a população aumentou em quase 21 milhões de habitantes, ou seja, grosso modo, cresceu, em média, 4 habitantes por minuto (diferença entre nascimentos e mortes). No entanto, a taxa de crescimento está declinando: segundo o Banco Mundial, deve passar dos atuais 0,9 para 0,24 em meados deste século. No país, como um todo, as proporções eram, em 2010, de 48,3% do sexo masculino e de 51,7% do sexo feminino, ou seja, havia 1,07 brasileira para cada brasileiro. A proporção masculino/feminino é maior na Região Norte (0,97) e menor na Região Nordeste (0,91). A. F. Beraldo 3 1. Introdução à Estatística Medir Alguns fenômenos não são “contáveis” são mensuráveis. As técnicas de medir, cuja história se confunde com a história da Ciência, foram amplamente desenvolvidas pela Estatística. A Estatística tem a sua maneira própria de medir, e suas próprias medidas, chamadas estatísticas: média, moda, variância, desvio padrão, números-índices ... A Estatística mede, por exemplo, a dispersão (ou concentração) de elementos de um conjunto em torno de um elemento central; a probabilidade da ocorrência de defeitos em um produto industrial; a relação entre o nível de renda de uma população e seu consumo de alimentos; a evolução das taxas de mortalidade de indivíduos acometidos de doenças; a posição de um elétron em torno do núcleo do átomo; a classificação provável de determinado candidato num concurso vestibular (entre milhares de candidatos); o efeito da propaganda nas vendas de um determinado produto; a audiência de um programa de televisão; a intenção de votos em um candidato a prefeito... Um bom exemplo do que seja calcular uma medida estatística sobre uma grande massa de dados é o cálculo do valor do PIB – Produto Interno Bruto, soma das riquezas produzidas pela indústria, agropecuária e serviços, durante um determinado período. É um dos principais indicadores econômicos de um país, e sua evolução, ano a ano, revela o comportamento de sua economia. O cálculo do PIB, no entanto, não é tão simples. Imagine que o IBGE queira calcular a riqueza gerada por um artesão. Ele cobra, por uma escultura, de madeira, R$ 30. No entanto, não é esta a contribuição dele para o PIB. Para fazer a escultura, ele usou madeira e tinta. Não é o artesão, no entanto, que produz esses produtos – ele teve que adquiri-los da indústria. O preço de R$ 30 traz embutido os custos para adquirir as matérias-primas para seu trabalho. Assim, se a madeira e a tinta custaram R$ 20, a contribuição do artesão para o PIB foi de R$ 10, não de R$ 30. Os R$ 10 foram a riqueza gerada por ele ao transformar um pedaço de madeira e um pouco de tinta em uma escultura. O IBGE precisa fazer esses cálculos para toda a cadeia produtiva brasileira. Ou seja, ele precisa excluir da produção total de cada setor as matérias-primas que ele adquiriu de outros setores. Depois de fazer esses cálculos, o instituto soma a riqueza gerada por cada setor, chegando à contribuição de cada um para a geração de riqueza e, portanto, para o crescimento econômico8. 8Adaptado de Folha On Line http://www1.folha.uol.com.br/folha/dinheiro/ult91u105544. shtml 4 A. F. Beraldo Figura 1.2: Evolução percentual do Produto Interno Bruto – Brasil Fonte: Indicadores Econômicos do Banco Central do Brasil O PIB (Produto Interno Bruto) do Brasil, em 2010, foi de 3,675 trilhões de reais, um crescimento de cerca de 7,5%. O PIB per capita, foi de cerca de R$ 19 mil, um crescimento de 6,5% sobre 20099. 9http://oglobo.globo.com/economia/mat/2011/03/03/pib-brasileiro-fecha-2010\ -com-crescimento-de-7-5-maior-desde-1986-aponta-ibge-923926837.asp A. F. Beraldo 5 1. Introdução à Estatística Classificar Classificar é quase uma decorrência natural dos processos de contar e de medir. Medidas estatísticas conduzem à colocação dos fenômenos (e de suas variáveis10) em classes. Classificar pode ser entendido como categorizar (colocar em categorias - A, B, C, D ...) ou ordenar (colocar em postos: 1o lugar, 2o lugar 3o lugar, etc.). A Estatística possui também suas medidas especiais de classificação, como as separatrizes e os escores padronizados, entre outras. Estes processos vêm desde o século XVII, com os estudos de Estatística Demográfica, de John Graunt, até a Análise Exploratória de Tukey, com suas técnicas modernas de análise de dados numéricos. Na figura a seguir, um exemplo de aplicação da Estatística Descritiva: Figura 1.3: Distribuição percentual das classes econômicas, segundo a metodologia da ABEP Fonte: Associação Brasileira de Empresas de Pesquisa, Brasil, 2009. 10Variáveis são os valores produzidos na ocorrência de um fenômeno. Este é um assunto importante, que será abordado muitas vezes durante este curso. 6 A. F. Beraldo Segundo os critérios da ABEP, as classes econômicas, em termos de poder aquisitivo, têm a seguinte renda média: Tabela 1.1: Classes Econômicas - Brasil - 2008 Classe Média em R$ Econômica do poder aquisitivo A1 14.366 A2 8.099 B1 4.558 B2 2.327 C1 1.391 C2 933 D 618 E 403 Fonte:http://www.abep.org Relacionar A Estatística estuda os relacionamentos entre os fenômenos, no tempo e no espaço. Através de um conjunto de medidas estatísticas, procura-se determinar se existe uma correlação (ou interdependência) entre duas ou mais variáveis e, se esta relação existir, se é forte ou fraca. Pode-se investigar, por exemplo, a relação existente entre a escolaridade de uma população e a incidência de uma determinada doença; a correlação entre o número de animais predadores em um lugar e os tipos de presas existentes nesta região; o rendimento escolar de alunos e seu quociente de inteligência; o número de acidentes de trânsito e a quantidade de veículos em circulação... Veja, a seguir, um exemplo de correlação entre dois atributos de um grupo de pessoas: peso e estatura. Figura 1.4: Pesos e estaturas médias de 100 indivíduos do sexo masculino A. F. Beraldo 7 1. Introdução à Estatística Figura 1.5: Curva de correlação entre os pesos e as estaturas médias de 100 indivíduos do sexo masculino Os dois gráficos acima mostram o estudo da correlação entre pesos e estatura de 100 estudantes de um colégio da cidade. Na figura 1.4 estão os dados colocados no gráfico, e, na figura 1.5, a curva de correlação – uma espécie de ajustamento ideal entre o peso e estatura, a equação da curva de correlação e a estatística R2 - “r ao quadrado” - que mostra o grau de correlação linear entre as duas variáveis. Quanto mais próximo de R2 = 1, 0; melhor a correlação entre os valores das duas variáveis. 8 A. F. Beraldo Comparar Comparar grandezas é uma das áreas onde mais se aplicam os processos estatísticos. São as estatísticas chamadas números-índices, entre outras, de larga utilização na Economia, nas Ciências Sociais, na Medicina, na Administração Pública, etc. Ao comparar valores destas grandezas entre diversos países ou regiões, em épocas diferentes, procura-se, desta forma, medir a evolução destas grandezas - o que fornece os parâmetros para o planejamento governamental das políticas sociais e econômicas, entre muitos outros exemplos. Figura 1.6: IDH-M das quatro melhores e quatro piores cidades, Brasil, 2000 Fonte: PNUD - Atlas do Desenvolvimento Humano, 2008. O IDH, Índice de Desenvolvimento Humano, é uma estatística elaborada e calculada pela ONU (PNUD), que leva em consideração dados sobre a Educação, Saúde e Renda per capita de uma região (cidade, estado, país) em determinado ano. Quanto mais próximo de 1, melhor a situação do país com relação a estas variáveis. Quanto mais próximo de zero, pior. O IDH do Brasil é de 0,699 (2010) que o coloca em 73o lugar entre os 169 países pesquisados. Os maiores valores do IDH (2010) foram os da, pela ordem, Noruega, Austrália, Nova Zelândia, Estados Unidos e Irlanda. Os piores índices são dos países Zimbábue, República Democrática do Congo, Níger, Mali e Burkina Faso11. 11http://g1.globo.com/brasil/noticia/2010/11/brasil-ocupa-73-posicao-entre-169\ -paises-no-idh-2010.html A. F. Beraldo 9 1. Introdução à Estatística Prever As técnicas de previsão estatística (forecasting), baseadas no Cálculo de Probabilida- des, constituem o ferramental básico dos Sistemas de Apoio às Decisões. Principalmente a Análise de Séries Temporais (onde os fenômenos se relacionam diretamente com o passar do tempo), que talvez seja o ramo da Estatística de maior desenvolvimento nos últimos anos. A previsão estatística, conjugada com as técnicas de correlação e de comparação, auxilia no planejamento das ações e no desenvolvimento das empresas, das instituições governamentais e de tecnologia - de prognósticos do comportamento das carteiras de ações na Bolsa de Valores ao lançamento de satélites espaciais. Uma parte importante da previsão estatística é a Atuária, ou Cálculo Atuarial, que trata dos cálculos de seguros (de vida, de acidentes, de doenças, etc.), tendo por base o Cálculo de Probabilidades. A seguir, gráficos mostrando a evolução de duas medidas estatísticas muito impor- tantes em Demografia e nas Políticas Públicas em Saúde: Expectativa de Vida, a Taxa de Natalidade, e a Taxa de Fecundidade (Fonte: Censo 2000 e PNAD 200312). Figura 1.7: Expectativa de Vida ao Nascer 12PNAD é a abreviação de Pesquisa Nacional por Amostragem Domiciliar. É uma pesquisa feita pelo IBGE com periodicidade menor do que o Censo, e é utilizada para acompanhar a evolução de algumas estatísticas. 10 A. F. Beraldo Figura 1.8: Expectativa de Vida ao Nascer (Reta de Regressão) Figura 1.9: Expectativa de Vida ao Nascer (Previsão) A. F. Beraldo 11 1. Introdução à Estatística Inferir Inferir é o processo estatístico em que se estima o valor de uma medida da população (chamada parâmetro13) a partir do valor desta mesma medida, calculada sobre uma Amostra retirada da população. Por exemplo, queremos saber qual é a taxa de fertilidade (número de filhos por mulher) da população do Brasil. Em outras palavras, desejamos saber o parâmetro “número de filhos por mulher”. Esta população é muito numerosa (em torno de 60 milhões de mulheres). Sorteamos, então, uma Amostra de 2.400 mulheres desta população e, com os dados desta amostra, calculamos duas estatísticas14: a média e o desvio-padrão15. A partir destas estatísticas, dizemos (por exemplo) que a taxa de fertilidade atual no Brasil está “em torno” de 2,8 filhos por mulher. Ou seja, estimamos o valor do parâmetro de uma população a partir de estatísticas amostrais. Figura 1.10: Inferir 13Parâmetro: É o valor de uma medida, referente a população. 14Estatística: É o valor de uma medida referente à amostra. 15Média e desvio-padrão são medidas que estudamos no Capítulo 2 desta Apostila. 12 A. F. Beraldo Testar Testes Estatísticos são processos de verificação da igualdade ou desigualdade entre duas ou mais medidas - entre valores esperados (ou previstos) e valores ocorridos, por exemplo, ou entre estatísticas de dois ou mais conjuntos, separados no tempo ou no espaço. Pode se testar estatisticamente a eficiência de um processo (uma dieta, por exemplo), ou a eficácia de uma ação (um método de aprendizagem), as diferenças entre os resultados de dois ou mais tipos de tratamentos médicos (a cura pela sugestão, pela alopatia ou pela homeopatia). A seguir, uma ilustração de uma pesquisa experimental onde se testa a eficácia de um medicamento em um grupo de pessoas. Figura 1.11: Pesquisa experimental Na figura 1.11, um experimento científico que consiste em analisar os efeitos de uma droga. São dois grupos de pessoas. O primeiro grupo, chamado de Estudo, ou Experimental, recebe a droga; o segundo grupo, chamado de grupo de Controle, não recebe a droga, mas um composto inócuo, chamado Placebo. A Estatística fornece recursos para avaliar os efeitos da droga administrada, comparando as variações entre os dois grupos, e verificando se a droga produz realmente o efeito que se espera. A. F. Beraldo 13 1. Introdução à Estatística Modelar O que faz um cliente do supermercado tomar a decisão de comprar um produto de determinada marca, e não de outra? Quais são os fatores de risco de alguém tornar-se diabético? Em crianças em processo de alfabetização, o que facilita e o que dificulta a aprendizagem? Tomada de decisões, incidência de doenças e processos de aprendizagem são exemplos de fenômenos complexos que ocorrem, associados – ou determinados – por vários “fatores”. Saber quais são os fatores mais importantes, qual o impacto de associação de fatores, e quais as consequências de realçarmos um ou mais fatores são alguns aspectos da análise de modelos multivariados. Cuidado para não confundir rendimento escolar com aprendi- zagem. Rendimento escolar é o que é apurado nas provas, trabalhos, atividades, etc (nota é uma variável objetiva, quantitativa). Aprendizagem é uma variável latente (veja mais em “Variáveis latentes”, página 28). Suponha que estamos pesquisandoos fatores que interferem no rendimento escolar dos alunos da última série do ensino médio. O simpático menino da figura acima, que faz parte do grupo pesquisado pode ser “descrito” pelas suas variáveis: sexo, idade, condição econômica familiar, constituição da família (pais casados, pais separados, pais em união estável, etc.), escolaridade dos pais, relação idade/série, número de repetências, e muitos outros atributos. E, é claro, as variáveis referentes às notas (rendimento escolar). Modelo é a representação estruturada de um fenômeno a partir de hipóteses de relacionamento de suas variáveis. Por exemplo, Figura 1.12: Fatores em um modelo 14 A. F. Beraldo Um modelo é uma simplificação – uma representação esquemática -, de como percebemos os fenômenos. Matematicamente, escrevemos Y = B1x1 +B2x2 +B3x3 + · · ·+BnXn Exemplificando (bem superficialmente): Pense no fenômeno da aprendizagem. Con- sidere que aprender determinado assunto está relacionado (associado) com as variáveis “horas de estudo”, “material didático” (quantidade e qualidade), “capacidade do pro- fessor”, “escolaridade dos pais”, “simpatia com a matéria”, entre outras. Estas são as variáveis, que aparecem no modelo como x1, x2, x3, . . . , xn. Cada variável está multiplicada por um B, que mede a importância que atribuímos a esta variável. Os valores de B1, B2, B3, . . . , Bn podem ser altos, baixos, ou mesmo nulos, conforme seu “peso”. Considere, por fim, que podemos medir esta “aprendizagem” por meio de exames (provas, testes) que, bem elaborados, pontuam (quantificam) esta “aprendizagem”. Os valores obtidos nos testes são os valores de Y . Assim, podemos correlacionar Y com as variáveis, que no nosso modelo, favorecem ou são obstáculos para a “aprendizagem”. A. F. Beraldo 15 1. Introdução à Estatística 1.1 O Método Estatístico Imagine o conjunto de moradores do Bairro B: são pessoas que tem os mais diversos atributos – idade, estado civil, naturalidade, renda, etc. –, que desejamos conhecer. No entanto, todos estes moradores possuem pelo menos um atributo em comum: são pessoas residentes no Bairro B. Figura 1.13: O conjunto Universo Para efeito de análise estatística, estes moradores do Bairro B são agrupados em um conjunto que denominamos Universo, notado pelo símbolo Ω. Pertencem ao conjunto Universo todas as pessoas que possuem este atributo: moradores do Bairro B. Estão “fora” do Universo todas as pessoas que não possuem este atributo. Os demais atributos dos moradores podem ser descritos por um conjunto de valores denominado variável. Assim, temos as variáveis sexo, idade, estado civil, renda, etc. Assume-se, para efeito de estudo, que estas variáveis são aleatórias, ou seja, seus valores não são influenciados por nenhum fator externo16. As variáveis de um conjunto Universo (e o próprio conjunto Universo) são descritas por medidas chamadas parâmetros. Por exemplo, as variáveis idade, renda, escolaridade (medida em anos de estudo) tem, cada uma, os parâmetros média (µ), variância (σ2), desvio-padrão (σ); as variáveis sexo, escolaridade (medida em nível de ensino) e naturalidade, tem, cada uma, o parâmetro proporção (pi). 16O conceito de variável aleatória é explicado em profundidade na Apostila II – Cálculo de Probabilidades. 16 A. F. Beraldo 1.1 O Método Estatístico Um parâmetro é uma medida de uma variável do conjunto Universo, e recebem como símbolo, as letras do alfabeto grego. Um conjunto Universo é suposto de tamanho infinito, ou finito. Mesmo sendo de tamanho finito, sempre partimos do princípio que estes conjuntos têm um tamanho muito grande – um número muito grande de elementos. Este “tamanho muito grande” torna extremamente difícil, senão impossível, a obtenção destes parâmetros. Para estudarmos o Universo, dispomos de dois métodos principais: o Censo e o Método Estatístico. Censo, ou recenseamento é o processo de coleta de dados em que todo o conjunto universo é pesquisado. Todos os elementos do conjunto são estudados, um a um, e o censo só termina quando todo o conjunto universo for abrangido. Censos são trabalhosos, demorados, dispendiosos e, por isso mesmo, são realizados apenas por instituições oficiais e por órgãos do governo. Censos demográficos são realizados de dez em dez anos, quando uma grande quantidade de recenseadores é recrutada para coletar dados sobre a população, através de questionários. Desta forma, podemos medir a evolução de dados como a população das cidades e do meio rural, as taxas de natalidade e mortalidade, as características da etnia, o credo religioso, as migrações internas, etc. Figura 1.14: O Censo A. F. Beraldo 17 1. Introdução à Estatística Portanto, o Censo17 é uma investigação extensiva a todos os elementos do Universo, e também intensiva, pois, na oportunidade da realização de um Censo, são coletados dados sobre centenas de variáveis, como “características gerais da população, educa- ção, migração, nupcialidade, trabalho, famílias e domicílios (...) informações sobre a população residente por sexo, cor ou raça, religião, categorias de incapacidade ou defi- ciência física ou mental, nível educacional, movimentos migratórios, situação conjugal, ocupação, rendimento de trabalho, tamanho da família e condições habitacionais, entre outros aspectos, para o total do Brasil, grandes regiões e unidades da federação (...) comentários sobre as características selecionadas em cada um dos temas e as diferenças regionais observadas, notas e anexos contendo a Classificação de Religiões, desenvolvida pelo IBGE e o Instituto Superior de Estudos da Religião - ISER, e a Classificação Nacional de Atividades Econômicas - Domiciliar.”18 O Método Estatístico foi desenvolvido para obtermos o valor estimado dos parâmetros, a partir das medidas de um subconjunto do Universo chamado Amostra. Este método consiste nos seguintes passos: 1. O conjunto Universo é tratado de forma que cada um, e todos os seus elementos, têm a mesma probabilidade de serem sorteados. Este processo é chamado de homogeneização do Universo. Em seguida, alguns elementos do Universo são sorteados para compor um subconjunto chamado amostra (ω): 17Para se ter uma ideia da magnitude do problema do Censo em um país como o nosso, com seus 8,5 milhões de km2, O Censo 2010 custou em torno de 1,4 bilhão de reais. Os 240 mil recenseadores, com seus GPS, visitaram 58 milhões de domicílios, em 5.565 cidades, e coletaram dados sobre os mais de 190 milhões de brasileiros. A coleta de dados foi feita não mais em formulários de papel, mas por meio de 220 mil palmtops e netbooks, em cerca de 314 mil setores censitários. Os dados foram transmitidos à central do IBGE via web. Foram duas modalidades de questionários: o “básico”, com 16 perguntas, e o “amostra”, com 81 perguntas, aplicados em 7 milhões de domicílios, sorteados dentro do universo. Entre as novidades deste censo foi a inclusão do item “união homossexual” entre as 20 opções de grau de parentesco com o responsável pelo domicílio, e o mapeamento das cerca de 210 línguas faladas no país (http://www.ibge.gov.br/censo2010/). Um censo é uma espécie de corrida contra o tempo, em termos de atualização de números. Por exemplo, desde que você começou a ler esta nota de rodapé, já nasceram mais de 6 brasileiros (o ritmo estimado é de 4,2 nascimentos/minuto). 18Veja http://www.ibge.gov.br/censo/divulgacao_impresso.shtm 18 A. F. Beraldo 1.1 O Método Estatístico Figura 1.15: Universo e Amostra A extração dos elementos do Universo que irão compor a Amostra é um processo que recebe o nome de Amostragem. A Amostragem consiste em uma série de técnicas cuja finalidade é fazer com que os princípios de aleatoriedade sejam respeitados. A Amostra, por ter um tamanho muito inferior ao tamanho do Universo, pode ser observada em sua totalidade (ao contrário do Universo). Estas “observações” são chamadas medidas estatísticas,ou, mais simplesmente, estatísticas (veja o quadro a seguir). A. F. Beraldo 19 1. Introdução à Estatística Figura 1.16: Estatística e Parâmetros Uma estatística é uma medida descritiva de uma variável da amostra, e recebe como símbolo, uma letra do alfabeto latino. Após o cálculo das estatísticas, prossegue-se com um outro processo estatístico: a Inferência, que consiste no cálculo dos parâmetros (populacionais) a partir das estatísticas (amostrais). População =⇒ Parâmetro. Amostra =⇒ Estatística. 20 A. F. Beraldo 1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos Portanto, há uma correspondência entre as medidas amostrais (estatísticas) e as medidas populacionais (parâmetros). Esta correspondência é expressa da seguinte maneira: Parâmetro = Estatística ± Margem de erro A margem de erro pode ser interpretada como a diferença existente entre as medidas de uma amostra e as do universo de onde foi extraída. Cada estatística possui a sua margem de erro. A margem de erro é função: • Do Nível de Confiança com que se está trabalhando; • Do tamanho da amostra, n; • Das condições do Universo (infinito ou finito), e da dispersão de seus valores; • Do tipo de amostragem que foi realizado (com reposição ou sem reposição). Todas estas condições serão extensamente estudadas na Apostila Estatística III. 1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos Na seção anterior, falamos de atributos, que seriam algo como as qualidades ou características que todos os elementos de um Universo (e das amostras dele extraídas) possuiriam. Estes atributos são uma espécie de característica comum aos elementos do Universo. Por exemplo, seja o Universo Ω1 constituído por todos os alunos das universidades brasileiras. O atributo em comum destes elementos do Universo é “estar matriculado em algum curso de alguma universidade brasileira”. Seja um subconjunto deste Universo Ω1, que chamaremos de Ω2, formado por elementos que pertencem às universidades federais. Seu atributo comum é “estar matriculado em algum curso de alguma universidade federal brasileira”. Seja, outra vez, outro subconjunto do Universo Ω2, que chamaremos de Ω3, que consiste nos estudantes da UFJF. Seu atributo em comum é: “estar matriculado em algum curso da UFJF”. A figura a seguir ilustra a disposição destes conjuntos: Continuemos com o conjunto Ω3: “alunos matriculados em algum curso da UFJF”. Além deste atributo comum, estes elementos do Universo Ω3 possuem diversas ca- racterísticas: curso em que estão matriculados, nível do curso, idade, sexo, estado A. F. Beraldo 21 1. Introdução à Estatística Figura 1.17: Conjuntos universo civil, estatura, peso, naturalidade, classe social, classe econômica, número de matrícula, pontuação no vestibular, tipo de moradia em Juiz de Fora, e muitas, muitas outras. Estas características, daqui por diante, passam a se chamar variáveis. Uma variável é uma característica dos elementos do Universo (e da Amostra) que pode ser valorada. Por exemplo, a variável “curso em que estão matriculados”. Pode assumir os “valores” Arquitetura, Direito, Medicina, Psicologia, Administração, tantos quantos forem os cursos oferecidos pela UFJF. A variável “nível do curso” pode assumir os valores Graduação, Especialização, Mestrado, Doutorado... A variável “idade” pode assumir valores que vão de, digamos, 16 anos até 70 anos. A variável “estatura” pode assumir valores, digamos, de 1,00m a 2,30m. E assim por diante. O domínio da variável (tipo de valores que a variável pode assumir) é que determina o tipo da variável. 22 A. F. Beraldo 1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos Estes podem ser: Figura 1.18: Variáveis Uma variável é dita quantitativa ou numérica quando assume exclusivamente valores numéricos (que representam quantidades). São discretas quando estes valores pertencem ao conjunto dos Naturais (N), mais o zero ( v ∈: 0, 1, 2, 3, 4, 5, . . . ). Geral- mente, estes valores são resultado de um processo de contagem. Uma variável é quantitativa (ou numérica) contínua quando pode assumir valores pertencentes ao conjunto dos Reais, (v ∈ R). Geralmente, estes valores são resultado de uma medição. Uma variável é dita qualitativa, categórica ou nominal, quando pode assumir apenas valores não-numéricos (palavras, sinais, ou números que não representam quan- tidades). Será dicotômica se seu domínio conter apenas dois valores, será politômica se o seu domínio conter mais de dois valores. No exemplo que estudamos, a variável idade é quantitativa discreta. Pode assumir os valores 16, 17, 18, ... , 70. A variável estatura é quantitativa contínua, podendo assumir qualquer valor entre 1,00m e 2,30m: 1,01m, 1,02m, 1,03m, ... , 2,29m, 2,30m. A variável sexo é qualitativa (ou nominal) dicotômica, podendo assumir os valores “masculino” ou “feminino” . O curso em que o aluno está matriculado é uma variável qualitativa politômica, que pode assumir os valores “Engenharia”, “Medicina”, “Direito”, “Enfermagem”, etc. Classificação quanto a natureza Algumas vezes uma mesma característica do Universo pode ser estudada por mais de uma variável. Por exemplo, a classificação econômica dos moradores de um bairro: pes- A. F. Beraldo 23 1. Introdução à Estatística quisando por domicílio, podemos simplesmente perguntar qual é o rendimento familiar mensal dos moradores do domicílio; podemos estimar esta renda perguntando o valor da conta de energia elétrica; podemos perguntar quais e quantos eletrodomésticos existem no domicílio, e a escolaridade dos moradores..., enfim, existem várias formas de conseguir dados sobre esta característica, cada um deles apurado através de uma variável. As variáveis são também tipificadas segundo sua Natureza, ou Nível de Mensu- ração. Esta é uma categorização muito útil na descrição de amostras, mas requer um estudo mais apurado, quando precisamos decidir qual tipo de variável é mais adequado (e qual variável é a mais adequada) para descrevermos determinada característica de um Universo19. Variável nominal: O nível mais baixo de informação é o das variáveis nominais dicotômicas que, como vimos, podem assumir apenas dois valores, opostos e comple- mentares: sim ou não, ligado ou desligado, defeituoso ou não defeituoso. Em seguida, temos as variáveis nominais politômicas, que podem assumir mais de dois valores. Por exemplo, estado civil: solteiro, casado, união estável, separado, divorciado, viúvo, outros. Variável nominal ordinal: É uma variável nominal politômica cujos valores podem ser colocados em ordem de intensidade (ou de frequência, ou de gravidade, entre outras qualificações). Por exemplo, as respostas à questão: Em relação à reserva de vagas nas universidades federais (política de cotas), você: � Discorda totalmente; � Discorda; � Não sei avaliar; � Concorda; � Concorda totalmente. Variável intervalar: É uma variável quantitativa, em que os valores estão dispostos em uma escala, e os intervalos entre os pontos da escala são fixos e iguais. Por exemplo, 19Esta é uma tarefa muito complexa. Uma boa parte do tempo de planejamento das pesquisas deve ser dedicada a este processo. Veja Apostila IV – Metologia de Pesquisa 24 A. F. Beraldo 1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos as escalas de temperatura, como a escala Celsius20: 0◦C corresponde ao “ponto do gelo” e 100◦C que corresponde ao “ponto de ebulição” da água, medidos pela coluna de mercúrio de um termômetro. Estes dois pontos foram convencionados, e a distância entre eles foi dividida em cem partes, e variação da temperatura entre 10◦C e 15◦C é a mesma que entre 15◦C e 20◦CO˙utro aspecto a considerar é que o valor de 0◦C não significa que “não há” temperatura, e sim, que “a temperatura é de 0◦C ”. É importante notar que um corpo a 60◦C não é “duas vezes mais quente” que um corpoa 30◦C. Temperatura é variável intervalar e “quente” (ou “frio”) é valor de uma variável nominal ordinal. Variável de razão: São as variáveis cujos valores são múltiplos ou submúltiplos de uma unidade convencionada, podendo haver uma correspondência linear (como no caso das variáveis estatura, peso, tempo, valores monetários) ou não-linear (exponencial ou logarítmica). No caso de uma variável de razão, o valor 0 (zero) corresponde a “ausência de”, e não uma convenção, como é o caso das variáveis intervalares. Em casos que a evolução dos valores é linear, como por exemplo, as medidas de comprimento (estatura, distância), a unidade é o metro, e, se dizemos que “o comprimento de uma sala de aula é de 8m”, estamos falando que “o comprimento da sala é de 8 x 1m” (oito vezes um metro). O mesmo vale para peso, tempo, volume, área, e outras. Há casos em que a correspondência não é linear, ou quando o intervalo entre dois pontos de uma escala não é fixo. Por exemplo, as escalas que utilizam logaritmos, como as escalas Richter21 – intensidade de terremotos, e a escala de decibéis – intensidade do som e do ruído. Dizer que um terremoto alcançou 4 graus na escala Richter não significa que sua intensidade foi duas vezes a de um terremoto de “grau 2”, e sim, a 100 vezes a de um terremoto grau 2. No caso da escala de ruídos, a intensidade do ruído é medida em decibéis (dB), sendo que a variação de 1 dB corresponde a uma variação de 10 vezes na potência do som ou do ruído. 20Anders Celsius (1701-1744), astrônomo e cientista sueco. Curiosamente, quando foi inventada, a escala Celsius era “ao contrário”: 0◦C correspondia ao “ponto de ebulição” e 100◦C ao “ponto do gelo” da água. Depois de sua morte, a escala passou a ter o sentido e direção atual. 21Charles Richter (1905-1985) e Beno Gutenberg, do California Institute of Technology, propuseram em 1935 a escala de medida sismográfica que, no começo, tinha a finalidade de medir unicamente os terremotos que se produziram na Califórnia (EUA). A escala Richter corresponde ao logaritmo da amplitude das ondas a 100 km do epicentro. Era graduada de 1 a 9, mas, depois de tremores que ultrapassam o grau 9, é, uma “escala aberta” (sem limite superior). A. F. Beraldo 25 1. Introdução à Estatística Exemplo 1.1. Propaganda de carro: destacamos as variáveis: Figura 1.19: Características de um automóvel Notar que as variáveis dados de razão sempre se referem a uma base: o melhor exemplo está no preço do carro, fornecido tanto em reais quanto em dólares. Comentários: 1. Discretas ou Contínuas? Notar que as variáveis numéricas discretas podem ser tratadas como se fossem contínuas. Um dos problemas que são resolvidos pela Estatística, como foi dito, é o de efetuar contagens em conjuntos muito grandes. Mesmo para estes conjuntos (o número de analfabetos no país, por exemplo), o resultado desta contagem pode ser calculado com uma precisão razoável, usando um método estatístico chamado Estimação. Sem entrar em detalhes, neste momento, podemos dizer que estimar uma quantidade é calcular um intervalo numérico em que o valor mais provável de uma medida esteja nele contido. Note que escrevemos “intervalo numérico”, ou seja, a grosso modo, “entre dois números”. Diz-se que uma pessoa tem entre 120.000 a 140.000 fios de cabelo, isto é, ela tem entre 120 mil e 140 mil fios de cabelo. Este resultado é obtido assim: divide-se a área total do couro cabeludo do cidadão em quadradinhos de área igual, digamos, 1 cm2 de área. Para simplificar, vamos supor que o couro cabeludo contenha 1.000 quadradinhos. Sorteia-se uma série de quadradinhos, digamos, uns trinta quadradinhos. Em cada quadradinho sorteado conta-se o número de fios de cabelo, e calcula-se amédia de “fios de cabelo por quadradinho”. Calcula-se também outra estatística, chamada desvio padrão, que é, por assim 26 A. F. Beraldo 1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos dizer, a “faixa de variação” da média. Se a média foi de 290 fios de cabelo por quadradinho, e o desvio padrão de 50 fios de cabelo por quadradinho, dizemos que o número de “fios de cabelo, por quadradinho”, está entre 240 e 340. Como são 1.000 quadradinhos, dizemos que a pessoa possui entre 240.000 e 340.000 fios de cabelo. Note que “número de fios de cabelo” é, a priori, uma variável numérica discreta. Quando seu valor se torna muito grande, dá-se a ela um tratamento de variável numérica contínua. 2. Variáveis Categóricas Dicotômicas: este tipo de variável também é muito utilizado pela Estatística. Dissemos que ela pode assumir os valores S e N (sim e não). Estendendo o raciocínio, podemos dizer que esta variável pode assumir dois valores, opostos e complementares, e que são mutuamente excludentes, ou seja: a variável possui dois estados, que não podem ocorrer simultaneamente. Por exemplo: “cara” ou “coroa”, no lançamento de uma moeda; “masculino” ou “feminino”, no nascimento de uma criança; “ligado” ou “desligado”, para um aparelho elétrico. Notar que muitas vezes atribui-se um valor “numérico” aos estados da variável, como, por exemplo, 1 para “ligado” e 0 para “desligado”. Deve-se prestar atenção a este caso, porque, apesar de termos valores numéricos, estes apenas simbolizam os estados da variável, que deve continuar sendo entendida e tratada como variável categórica, e não como variável numérica. 3. Por outro lado, podemos substituir as categorias de uma variável qualitativa por números, se esta variável qualitativa possui um caráter hierárquico ou ordinal, ou mesmo de graduação em nível ou intensidade. Por exemplo, em uma pesquisa de opinião pública a respeito do presidente da república, as respostas possíveis são: “ótimo”, “bom”, “regular”, “ruim” ou “péssimo” (variáveis qualitativas). Devido ao alto grau de subjetividade nesta conceituação, pode-se substituir a pergunta da pesquisa por outra: “Qual nota, numa escala de 0 a 10, você daria ao Presidente da República?”. Com este procedimento, tenta-se tornar a pesquisa mais objetiva, com a utilização de variáveis quantitativas. O inverso pode também ser utilizado: as famílias de um bairro podem ter uma classificação sócio-econômica A, B, C, D ou E (variável qualitativa) conforme sua renda familiar (variável quantitativa). 4. Muitas vezes você encontrará variáveis qualitativas identificadas por números. Por exemplo, em um questionário acerca do estado civil de um elemento amostral, pode-se identificar “solteiro” por “01”, “casado” por “02”, “divorciado” por “03”, etc. É preciso não confundir este valores, digamos, pseudo-numéricos, com valores de uma variável quantitativa. Estado civil é uma variável qualitativa e deve ter o tratamento correspondente, adequado. Outro exemplo: no seu número de matrícula, consta, digamos, o dígito “04” - que corresponde ao curso no qual você A. F. Beraldo 27 1. Introdução à Estatística está matriculado. Apesar de ser um número, estes dígitos representam variáveis qualitativas. 5. Atributos e Variáveis: Tempos atrás, fazia uma distinção entre atributos e variá- veis. Atributo era uma espécie de característica do elemento amostral que “pouco ou nada variava”, como sexo, naturalidade, data de nascimento, e outras. Já a variável seria uma característica que se alterava mais frequentemente. Variáveis latentes Até agora, falamos apenas de variáveis objetivas, como peso, estatura, sexo, classe econômica. São variáveis cujos valores podem ser diretamente apurados, seja por questionários e entrevistas, seja pela observação dos coletores de dados, seja por instrumentos apropriados de medição. Existe, no entanto, um outro extenso grupo de variáveis que não são passíveis de serem medidas direta e objetivamente, mas cujos valores (ou “estados”) são estimados - são as chamadas variáveis latentes, muito comuns em Psicologia, Ciências Sociais, Educação, Economia e Administração. Alguns exemplos: Qualidade de Vida, Satisfaçãodo Consumidor, Nível de Participação Política, Nível de Aprendizagem, Inteligência, Aptidão Física... Por exemplo, como medir algo que convencionamos chamar de Qualidade de Vida? Deve-se, primeiro, definir o quê seja “Qualidade Vida”, e de quem: da população em geral, dos jovens, das mulheres, dos deficientes físicos? O que seria Aptidão Física? A definição do significado de uma variável latente é feita a partir de estudos teóricos, muitas vezes acompanhados de pesquisas qualitativas. Esta definição é chamada de constructo, e procura desmembrar a variável latente em uma série de variáveis cujos valores podem ser obtidos de forma direta. Veja o exemplo 1.2 a seguir: Exemplo 1.2. Uma pesquisa dos alunos do curso de Ciências Sociais procurou medir o Nível de Satisfação dos moradores do Bairro Alfa. “Nível de Satisfação” é uma variável latente, como foi dito, e não pode ser medida direta e objetivamente. A equipe resolveu, então, elaborar um constructo em que a variável Qualidade de Vida foi segmentada nos fatores Saúde, Educação, Segurança, Transporte, Lazer, Comércio, e Vizinhança, cuja avaliação foi feita pelos respondentes a um questionário aplicado a 600 moradores do bairro. Por exemplo, o fator Saúde foi medida pela avaliação feita pelos respondentes, em questões como: 28 A. F. Beraldo 1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos Em relação ao atendimento do Posto de Saúde, você está: � Totalmente Insatisfeito � Insatisfeito � NSA – Não Sei Avaliar � Satisfeito � Totalmente Satisfeito As respostas eram pontuadas de 1 a 5. A pontuação de cada fator foi a soma das pontuações das questões a ele relativas. A menor pontuação de um fator, por respondente, era 5, a maior, 25 pontos. Foi utilizada a mediana como medida de tendência central22 de cada fator. Adicionalmente, adotou-se o seguinte critério: • Entre 5 e 10 pontos – Fator mal avaliado • Entre 11 e 18 pontos – Fator avaliado como “regular” • Entre 19 e 25 pontos – Fator bem avaliado Veja um dos resultados da pesquisa no gráfico a seguir. Avalie cada fator segundo o critério dado. Figura 1.20: Resultados da pesquisa (dados fictícios) 22A mediana e demais medidas de tendência central são estudadas no próximo capítulo. A. F. Beraldo 29 1. Introdução à Estatística Além deste Capítulo, pratique: Faça agora os exercícios da Lista 1.1 - Distribuições de Frequências. Assita ao audiovisual AV01 - Introdução à Estatística. Faça o Estudo Dirigido ED01 - Introdução à Estatística / Variáveis. 30 A. F. Beraldo 2 Medidas Estatísticas de Tendência Central Medidas de Tendência Central procuram caracterizar um conjunto de n dados numéricos por apenas um valor. Esta parece ser uma tendência natural das pessoas: quando se têm uma série de valores procura-se um valor “médio”, pelo qual se identifica o conjunto. É muito comum se ouvirem frases do tipo “os aluguéis estão em torno de R$ 250,00”, ou “são meninos na faixa de 12 anos”, ou ainda “o jogador faz cerca de 2 gols por partida”. Expressões como “em torno”, “cerca de”, “na faixa de”, ou ainda “em média”, traduzem esta tentativa de adotar-se um valor único para identificar um conjunto de valores. A Estatística possui um conjunto de Medidas de Tendência Central que, conforme o caso, fornecem este valor único, característico dos dados existentes na amostra. Tenha em mente que estamos tratando apenas de variáveis quantitativas. Variáveis qualitativas serão abordadas em outra parte desta Apostila. As Medidas de Tendência Central que estudaremos nesta parte serão a média, a moda, a mediana e o ponto médio. Existem outras estatísticas de tendência central que serão citadas, quando necessário. 2.1 Média 2.1.1 Média Aritmética Definição: A média, ou média aritmética, de um conjunto de n valores numéricos é definida como a razão entre a soma destes valores e o tamanho do conjunto. Seja um conjunto A de n valores numéricos, descrito como: A = {x1, x2, x3, · · · , xn} Define-se sua média aritmética, ou simplesmente, média, notada por X. A. F. Beraldo 31 2. Medidas Estatísticas de Tendência Central X = ∑ xi n (2.1) Onde: X é a média aritmética do conjunto, n é o tamanho (número de elementos) do conjunto. Exemplo 1.1 Seja o conjunto A = {1, 2, 4, 8, 0, 3}. Sua média será: X = ∑ xi n = 1 + 2 + 4 + 8 + 0 + 36 = 18 6 = 3, 0 Note que o elemento 0 “entra” na conta, no somatório de xi. Exemplo 1.2 Seja o conjunto B = {8,−2, 5, 6,−4, 2, 2,−1}. Sua média será: X = ∑ xi n = 8− 2 + 5 + 6− 4 + 2 + 2− 18 = 16 8 = 2, 0 Note que elementos com sinal negativo mantêm o sinal, no somatório. Exemplo 1.3: Seja o conjunto C = {1, 2, 4, 3, 2, 2, 2, 3, 2, 1, 2}. Sua média será: X = ∑ xi n = 1 + 2 + 4 + 3 + 2 + 2 + 2 + 3 + 2 + 1 + 211 = 24 11 = 2, 18 Note que a média pode ser fracionária, ou seja, pode assumir um valor que, à primeira vista, pode parecer absurdo, como é o caso de “1,3 filhos por casal”, ou “0,96 gols por partida”. Comentários 1. Note que “média” é um termo técnico, matemático. Devemos diferenciar o conceito que temos, no cotidiano, da palavra “média”. Quando dizemos que uma pessoa possui estatura média, na linguagem do dia-a-dia, não-técnica, queremos dizer que ela não é alta nem baixa. Quando dizemos que um aluno “está na média”, queremos dizer que suas notas situam-se em torno de uma “nota média”, adotada 32 A. F. Beraldo 2.1 Média pela escola ou pelo curso que frequenta. Isto é bem diferente do conceito que acabamos de estudar. 2. A média de um conjunto nem sempre poderá ser adotada como valor característico deste conjunto. Conjuntos muito irregulares (com valores extremos) também possuem média, mas esta pode não caracterizar o conjunto. Por exemplo, se numa prova aplicada a uma turma de alunos a metade dos alunos tirou nota 3 e a outra metade tirou nota 7, a média será 5. No entanto: a Nenhum aluno tirou nota 5; b Se você disser “esta é uma turma nota 5”, estará superestimando metade da turma (a que tirou nota 3) e subestimando a outra metade (a que tirou nota 7). 2.1.2 Média Aritmética Ponderada A média aritmética ponderada é aplicável quando um conjunto de valores possui elementos que se repetem. Por exemplo, o conjunto A: A = {1, 1, 5, 5, 5, 6, 6} No conjunto acima, o elemento 1 repete-se duas vezes, o elemento 5 repete-se três vezes e o elemento 6 repete-se duas vezes. Diz-se, então, que o elemento 1 tem peso 2 (duas repetições), o elemento 5 tem peso 3 e o elemento 6 tem peso 2. Ao calcularmos a média do conjunto teríamos: X = ∑ xi n = 1 + 1 + 5 + 5 + 5 + 6 + 67 = 29 7 = 4, 14 Podemos simplificar as operações, fazendo X = ∑ xi n = (1× 2) + (5× 3) + (6× 2)7 = 29 7 = 4, 14 Ao invés de somar 1 + 1, preferimos fazer 1 × 2; ao invés de somar 5 + 5 + 5, calculamos 5× 3 . O mesmo com 6 + 6 substituído por 6× 2. O resultado é o mesmo, mas o número de operações ficou reduzido - é mais prático calcular assim. No exemplo acima o conjunto é pequeno (7 elementos). Em conjuntos maiores, a praticidade de A. F. Beraldo 33 2. Medidas Estatísticas de Tendência Central utilizar-se a multiplicação dos elementos por seus pesos fica bem mais evidente. De uma forma geral, introduzimos a média aritmética ponderada XP , dada por: XP = ∑j=k j=1 xjpj∑j=k j=1 pj (2.2) onde xj são os elementos repetidos do conjunto, e pj são os pesos(número de vezes em que os elementos ocorrem no conjunto). Veja o exemplo a seguir: Seja A = {4, 4, 4, 5, 5, 7, 7, 7, 7, 3, 3, 2, 2, 2, 2, 2, 6} . Calculando a média de A, optamos por utilizar a média ponderada: XP = ∑ xi × pi∑ pi = (4× 3) + (5× 2) + (7× 4) + (3× 2) + (2× 5) + (6× 1)3 + 2 + 4 + 2 + 5 + 1 = 7217 = 4, 24 Nota: as propriedades da média aritmética se aplicam igualmente à média aritmética ponderada. 2.1.3 Média Geométrica Sejaum conjunto A de n valores numéricos, descrito como: A = {x1, x2, x3, · · · , xn} Define-se a sua média geométrica como: XG = n √ x1x2x3 · · ·xn (2.3) ou seja, a média geométrica do conjunto, XG, é a raiz n-ésima do produtório dos elementos xi do conjunto. Por exemplo: seja o conjunto A = {1, 4, 5, 6, 3}. Sua média geométrica é dada por: 34 A. F. Beraldo 2.1 Média XG = n √ x1.x2.x3. · · · .xn = 5 √ 1× 4× 5× 6× 3 = 5√360 = 3, 245 Lembre-se que: 1. No conjunto dos Reais, R, não existe raiz par de número negativo. 2. Se você estiver utilizando calculadoras que possuem a função xy, a expressão acima para o cálculo da média geométrica pode ser reescrita como: XG = (x1 × x2 × x3 × · · · × xn) 1n 3. Se você estiver utilizando logaritmos, a expressão do cálculo da média geométrica passa a ser: logXG = 1 n ( log x1 + log x2 + log x3 + ...+ log xn ) 2.1.4 Média Harmônica Seja um conjunto A de n valores numéricos, descrito como A = {x1, x2, x3, · · · , xn} Define-se sua média harmônica como: XH = n∑i=n i=1 1 xi (2.4) A. F. Beraldo 35 2. Medidas Estatísticas de Tendência Central Por exemplo, seja o conjunto A = {3, 4, 6, 2}. Sua média harmônica XH é dada por XH = n∑ 1 xi = 41 3 + 1 4 + 1 6 + 1 2 = 415 12 = 3, 20 Nota: Como você deve ter notado, ao analisar a fórmula de cálculo da média harmônica, esta não existe no campo real se: 1. Existir pelo menos um elemento do conjunto igual a zero. 2. O somatório ∑ 1 xi for igual a zero. Nota: A partir deste ponto, iremos utilizar a notação X para as médias aritméticas Simples e Ponderadas, XG para a média geométrica e XH para a média harmônica. Comentários 1. Aplicação das Médias Geométrica e Harmônica: A média geométrica deve ser utilizada quando os valores do conjunto estão colo- cados em alguma forma de progressão geométrica ou quando os valores mostram a evolução exponencial de uma grandeza. É muito utilizada quando os valores da amostra são números índices. A média geométrica é aplicada, por exemplo, no cálculo das médias de taxas: de inflação, de preços, de juros, de evolução de índices econômicos, etc. É bastante utilizada, também, em Demografia e em Epidemiologia. A média harmônica é aplicada em taxas ou coeficientes por quantidades fixas, como, por exemplo, nos índices utilizados em saúde pública: óbitos por 10.000 habitantes, incidência de uma doença por 1.000 habitantes, etc. 2. Se um conjunto possui apenas valores positivos, temos sempre a seguinte relação: X ≥ XG ≥ XH Os casos de igualdade entre as médias referem-se a conjuntos com valores iguais. Para exemplificar esta relação, utilizamos o conjunto formado pelos números 1, 2, 4. 36 A. F. Beraldo 2.1 Média Sua média aritmética é dada por: X = ∑ xi n = 1 + 2 + 43 = 2, 3 A média geométrica é dada por: XG = 3 √ 1× 2× 4 = 3√8 = 2 A média harmônica é dada por: XH = 3 1 1 + 1 2 + 1 4 = 3 4 + 2 + 1 4 = 31, 75 = 1, 71 3. Você pode ver que as médias Harmônicas e Geométricas não são tão afetadas pela existência de valores extremos no conjunto. 4. As médias aritméticas são diretamente afetadas pelos próprios valores do con- junto. Lembre-se que a média aritmética é o resultado de uma operação matemá- tica que envolve tanto o número de elementos do conjunto (denominador) quanto o somatório destes valores (numerador). 5. Vantagens do uso da média: • A média é a Estatística de Tendência Central de mais fácil compreensão. É utilizada de forma generalizada, na Estatística Descritiva e na Inferencial; • A média sempre pode ser calculada em conjuntos numéricos; • Pode ser tratada algebricamente. Por exemplo, se um conjunto muito grande de valores é subdividido, as médias dos subconjuntos podem ser combinadas, para fornecer a média do conjunto original. 6. Desvantagens do uso da média: • Como seu valor pode ser distorcido pela presença de elementos extremos no conjunto, há de se fazer uma verificação na distribuição destes valores, para julgar se a média é boa ou ruim para caracterizar o conjunto. A. F. Beraldo 37 2. Medidas Estatísticas de Tendência Central 2.1.5 Propriedades da Média Aritmética Propriedade I Seja um conjunto A, de valores numéricos, definido como: A = {x1, x2, x3, · · · , xn} = {xi}n, e com média XA. Seja um conjunto B, definido como: B = {x1 + k, x2 + k, x3 + k, · · · , xn + k} = {xi + k}n, (sendo k uma constante) e com média XB. A média XB será igual a XA + k. Assim, se somarmos (ou diminuirmos) uma constante k, a todos os valores de um conjunto, a nova média será a média do conjunto original somada (ou diminuída) a esta constante K. Propriedade II Seja um conjunto A, de valores numéricos, definido como: A = {x1, x2, x3, · · · , xn} = {xi}n, e com média XA. Seja um conjunto B, definido como: A = {x1 · k, x2 · k, x3 · k, · · · , xn · k} = {xi · k}n, e com média XB. (sendo k uma constante diferente de zero) A média XB será igual a XA × k. Propriedade III Seja um conjunto A, de valores numéricos, definido como: A = {x1, x2, x3, · · · , xn} = {xi}n, e com média XA. Sejas as diferenças (ou desvios) di = xi − XA (diferença entre cada elemento do conjunto em relação à média). Temos que: i=n∑ i=1 di = 0 Ou seja, a soma algébrica dos valores das diferenças dos elementos em relação à média do conjunto é sempre nula. 38 A. F. Beraldo 2.2 Moda Propriedade IV Seja um conjunto A, de valores numéricos, definido como: A = {x1, x2, x3, · · · , xn} = {xi}n, e com média XA. Sejam as diferenças (ou desvios) di = xi − V (diferença de cada elemento do conjunto em relação a um valor V qualquer. Temos que ∑i=ni=1 d2i é um mínimo quando V = XA. 2.2 Moda Definição: A moda de um conjunto de valores numéricos é o valor de maior frequência dentro do conjunto. Assim, um conjunto pode possuir uma moda apenas, ou pode possuir mais de uma moda, ou pode não possuir moda. Para que um conjunto possua moda, é necessário que: 1. Existam valores repetidos no conjunto; 2. No conjunto, existam um ou mais valores que se repitam mais vezes do que os demais. A moda é notada por X̂. A frequência da moda, ou das modas, é chamada frequência modal ( fk ) . Exemplo: Seja o conjunto A = {1, 3, 4, 5, 5, 8, 5}. Sua moda X̂ = 5, a frequência modal ( fk ) = 3 (o elemento 5 repete-se mais do que os demais, e repete-se 3 vezes). Exemplo: Seja o conjunto B = {1, 3, 4, 5, 5, 8, 4}. Suas modas são X̂ = 5 e X̂ = 4, e frequência modal ( fk ) = 2 (os elementos 5 e 4 repetem-se mais do que os demais, sendo 2 vezes cada). Exemplo: Seja o conjunto C = {1, 1, 4, 5, 5, 4}. Este conjunto não possui moda. Apesar de haver repetição de valores, nenhum valor do conjunto repete-se mais vezes que os demais. Exemplo: Seja o conjunto D = {1, 1, 1, 1, 1, 1}. Este conjunto não possui moda. Apesar de haver repetição do valor 1, nenhum valor do conjunto repete-se mais do que os demais. Apesar disto, é óbvio que o valor 1 é o valor característico do conjunto. A. F. Beraldo 39 2. Medidas Estatísticas de Tendência Central Comentários 1. A moda não é muito considerada pelos estatísticos uma vez que ela pode não ocorrer ou, o que é pior, pode existir mais de uma moda na amostra. Desta forma, ficaríamos em dúvida de qual dos valores da moda usar - lembre-se que uma medida de tendência central tem que ser um valor único. 2. Muitos alunos tendem a procurar “sub-modas” na distribuição, quando há elemen- tos com frequência próxima à frequência modal. Isto não é correto. A moda terá a maior frequência dentro do conjunto. 3. Outro erro muito comum é, quando a distribuição possui duas modas, inventar-se uma “moda média”, que seria o valor médio entre as modas. Esta “moda média” não existe. 4. Mesmo que a moda possa não ser utilizada como Medida de Tendência Central (nocaso de duas ou mais modas, por exemplo), ela não perde sua utilidade. As modas fornecem indícios que existem vários pontos de concentração na amostra, o que pode caracterizar um conjunto formado por vários subconjuntos - e é assim que a amostra deve ser analisada. 5. A moda é diretamente afetada pelo número de repetições dos elementos do conjunto. 6. Vantagens da moda: a Quando a frequência modal é alta (por exemplo, 50% do conjunto), a moda passa a ser o valor “típico” do conjunto; b A moda não é afetada por valores extremos do conjunto; c Ao contrário da média, se um conjunto possui moda(s), esta(s) pertence(m) necessariamente ao conjunto. 7. Desvantagens da moda: a A moda pode não existir; b O conjunto pode ser bimodal ou polimodal c A frequência modal é muito baixa (poucas repetições), o que torna a moda não característica do conjunto. 40 A. F. Beraldo 2.3 Mediana 2.3 Mediana Definição: A mediana é o valor central de um conjunto ordenado. A mediana é notada por X˜. Seja o conjunto A = {1, 4, 6, 3, 9}. Para calcular sua mediana, temos que ordenar o conjunto (vide definição acima). Ordenado, o conjunto passa a ser: A′ = {1, 3,4, 6, 9} O valor central (no “meio” do conjunto) é o elemento 4. Portanto, a mediana deste conjunto é X˜ = 4. Em conjuntos pequenos, de tamanho ímpar, é fácil determinar a mediana. Se o conjunto possui n elementos e n é ímpar, a mediana ocupa a posição central (n+ 1)/2. No exemplo acima, como o conjunto possui 5 elementos, a mediana está na 3a posição, pois (5 + 1)/2 = 3. Figura 2.1: Conjunto de tamanho ímpar No entanto, em conjuntos pequenos, de tamanho par, temos duas posições centrais: Figura 2.2: Conjunto de tamanho par A. F. Beraldo 41 2. Medidas Estatísticas de Tendência Central Neste caso, a mediana será a média dos dois valores centrais. Por exemplo, seja o conjunto B = {1, 0, 3, 5, 4, 9, 2, 1}. O conjunto ordenado será: B′ = {0, 1, 1, 2, 3, 4, 5, 9} Os valores centrais são 2 e 3. Portanto, a mediana deste conjunto é X˜ = (2 + 3)/2 = 2, 5. Comentários 1. A mediana é considerada a Medida de Tendência Central mais robusta, uma vez que não sofre a desvantagem da média de se alterar devido à presença de valores extremos. 2. Como se vê, o valor da mediana depende apenas de sua posição. Logicamente, se o tamanho do conjunto é alterado, a mediana pode deslocar-se para cima ou para baixo. 3. Vantagens da mediana: a A mediana, por ser independente dos valores do conjunto, pode ser calculada mesmo para conjuntos abertos; b Sua robustez. 4. Desvantagens da mediana: a A mediana não é característica do conjunto se a distribuição de valores for bimodal ou polimodal (áreas de concentração diferentes); b Se um conjunto for de tamanho par, a mediana terá que ser “inventada”, em uma posição arbitrada 1. 1Não consideremos isto uma desvantagem. Mesmo que a mediana não pertença ao conjunto, sua finalidade como medida de tendência central ou de posição não se perde. Sempre saberemos que 50% dos valores do conjunto estão abaixo da mediana, e 50% acima dela. É isso que importa. 42 A. F. Beraldo 2.4 Ponto Médio 2.4 Ponto Médio Definição: O ponto médio de um conjunto é a média entre o maior valor e o menor valor do conjunto. O ponto médio é notado por x . A expressão de cálculo é: x = Maior valor + Menor valor2 (2.5) Por exemplo, seja o conjunto A = {3, 8, 1, 9, 4}. Seu ponto médio, x, é dado por: x = Maior valor + Menor valor2 = 9 + 1 2 = 10 2 = 5, 0 A. F. Beraldo 43 2. Medidas Estatísticas de Tendência Central Além deste Capítulo, pratique: Faça agora os exercícios da Lista 1.2 - Medidas de Tendência Central. Faça agora uma simulação destas medidas no templates TP01 - Estatística Básica. Utilize o software DidDest para uma simulação destas medidas. Assita ao audiovisualAV02 - Medidas de Tendência Central e Medidas de Dispersão até o slide 32. Faça o Estudo Dirigido ED02 - Medidas de Tendência Central e Dispersão (parte de Tendência Central). 44 A. F. Beraldo 3 Medidas Estatísticas de Dispersão Até aqui estudamos as Medidas de Tendência Central. Procuramos um valor único que represente todo um conjunto numérico. Com a determinação deste valor, seja ele a média, a moda ou a mediana, aumentamos ainda mais o nível de conhecimento que possuímos sobre a amostra. Prosseguindo nosso estudo; vamos adotar a Média como Medida de Tendência Central (por mais imperfeita que possa ser esta medida), e verificar como os demais elementos do conjunto se dispõem em torno da média. Na prática, podemos obter amostras regulares, com a maioria de seus elementos concentrados em torno da média, ou irregulares, com valores dispersos, distantes da média. Alguns conjuntos são extremamente regulares, como as medidas de peças fabricadas em série, em indústrias com um bom controle de qualidade. Outros, ao contrário, são bastante heterogêneos como, por exemplo, as idades dos habitantes de uma cidade - temos desde recém-nascidos até pessoas de idade bem avançada. Figura 3.1: Conjunto A No conjunto A, os elementos da amostra se concentram de maneira quase uniforme, em torno da região central (em cinza). Existem alguns elementos, inclusive, dentro da área cinzenta. Se imaginarmos que esta área cinzenta representa a Medida de Tendência Central (no caso, a média), teremos um conjunto de pouca dispersão em torno da média. A. F. Beraldo 45 3. Medidas Estatísticas de Dispersão Figura 3.2: Conjunto B Ao contrário, no conjunto B, os elementos da amostra se afastam da região central, estando dispersos por todas as regiões da amostra. Uns poucos elementos se encontram próximos a esta região central; o restante dos elementos da amostra se distribui irregu- larmente. Comparando as duas ilustrações, formamos um conceito, ainda que visual, de uma grandeza chamada dispersão. 3.1 Amplitude Amplitude (R) é simplesmente a distância entre o maior valor e o menor valor de um conjunto de dados. Por exemplo, a Amplitude do conjunto A = {1, 3, 5, 5, 5, 8} é igual a R = 8− 1 = 7. Outra forma de mostrar a Amplitude de um conjunto é a que utiliza a notação da teoria dos conjuntos: [a, b] significando um intervalo fechado, sendo a o menor valor e b o maior valor. Para o exemplo acima, teremos R = [1, 8]. 46 A. F. Beraldo 3.2 Desvios e Desvio Médio 3.2 Desvios e Desvio Médio O nosso problema, agora que já temos uma ideia visual do que seja concentração ou dispersão, é quantificar esta dispersão em torno da média. Na ilustração ao lado, mostramos uma tentativa de quantificação desta grandeza. Medimos a distância entre cada elemento da amostra e a média do conjunto. Esta distância é chamada de desvio de um elemento, que notaremos por di. Assim, cada elemento da amostra poderá ter seu desvio calculado em relação à média. É uma medida ainda bem primitiva, mas já é um começo. Figura 3.3: Desvios Exemplificando, seja o conjunto A = {0, 3, 2, 7, 8, 4}. A média deste conjunto é: X = ∑ xi n = 0 + 3 + 2 + 7 + 8 + 46 = 24 6 = 4, 0 Os desvios dos elementos são calculados pela fórmula: di = xi −X (3.1) A. F. Beraldo 47 3. Medidas Estatísticas de Dispersão Onde di é o desvio de um elemento xi e X é a média do conjunto. Calculando os desvios dos elementos do conjunto, temos: Tabela 3.1: Desvios dos elementos do conjunto xi di 0 0− 4 = −4 3 −1 2 −2 7 +3 8 +4 4 0 Σ 0 Note que temos desvios negativos, positivos e nulos. Desvios negativos ocorrem quando os elementos são menores que a média; desvios positivos acontecem quando os elementos são maiores do que a média; desvios nulos ocorrem quando os elementos são coincidentes com a média. Assim, podemos ter: di > 0 o que indica que xi > X , ou que o elemento xi está acima da média X di = 0 o que indica que xi = X , ou que o elemento xi coincide coma média X di < 0 o que indica que xi < X, ou que o elemento xi está abaixo da média X Repare, também, que a soma algébrica dos desvios em relação à média é igual a zero. Esta é uma das propriedades da média, que já foi estudada, e é uma maneira de conferirmos se nossas contas estão certas. Já temos uma ideia dos desvios dos elementos (ou de cada elemento), dentro do conjunto. Ainda assim, é pouco. Queremos ter uma ideia geral de como está a dispersão, como um todo, dentro da amostra. Uma ideia inicial é calcular a média dos desvios, ou desvio médio. Uma fórmula para o desvio médio seria: d = ∑i=n i=1 | di | n (3.2) A introdução da operação módulo | di | se faz necessária porque a soma algébrica dos desvios é sempre igual a zero. Se assim não o fizéssemos, teríamos sempre d = 0. 48 A. F. Beraldo 3.3 Variância e Desvio Padrão Utilizando a tabela 3.2 para calcular o desvio médio, temos: Tabela 3.2: Cálculo do desvio médio xi di |d| 0 -4 4 3 -1 1 2 -2 2 7 +3 3 8 +4 4 4 0 0 Σ 0 14 d = ∑i=n i=1 | di | n = 146 = ±2, 33 O que quer dizer este valor? Este desvio médio, de ±2, 33, indica que os elementos da amostra se desviam, em média, de 2, 33 unidades (acima e abaixo da média). Este desvio é em relação à média, lembre-se que pode ser tanto positivo quanto negativo. Este é um valor médio, ou seja, sofre de todas as imperfeições desta medida: fortemente afetada por valores extremos, não se aplica a conjuntos muito irregulares, etc. Estas desvantagens, de certa forma, distorcem aquilo que seria uma boa medida da grandeza dispersão. É necessário, então, melhorar a forma de medir a dispersão dos elementos da amostra em torno da média. Existem alguns procedimentos matemáticos adotados pela Estatística, dentre os quais o mais utilizado é o cálculo de uma estatística chamada desvio padrão. 3.3 Variância e Desvio Padrão O desvio padrão foi adotado pela Estatística para refletir, de maneira mais realista, mais robusta1 e mais precisa a grandeza dispersão nas amostras. O desvio padrão é o resultado de uma operação matemática chamada raiz média quadrática dos desvios. De uma forma mais prática, para calcular o desvio padrão é melhor calcular antes, outra estatística chamada variância. Por enquanto, não se preocupe com o que significa a variância, mas saiba que é uma estatística muito importante, intensamente utilizada em análises mais avançadas em Estatística. Definição: A variância é a média dos quadrados dos desvios em relação à média. 1Você se lembra do que é robustez, em Estatística? A. F. Beraldo 49 3. Medidas Estatísticas de Dispersão A variância é notada por s2 (a letra “s”, minúscula, elevada ao quadrado). A fórmula da variância é a seguinte: s2 = ∑i=n i=1 d 2 i n− 1 (3.3) O desvio padrão é a raiz quadrada da variância. Sua fórmula, portanto, é: s = √ s2 (3.4) Seja o conjunto do exemplo anterior, A = {0, 3, 2, 7, 8, 4}. A média do conjunto, X = 4, e os desvios foram calculados, conforme a tabela 3.3. Tabela 3.3: Desvios dos elementos do conjunto xi di 0 −4 3 −1 2 −2 7 +3 8 +4 4 0 Σ 0 50 A. F. Beraldo 3.3 Variância e Desvio Padrão Montamos mais uma coluna, à direita, para conter os valores dos quadrados dos desvios: Tabela 3.4: Cálculo dos quadrados dos desvios xi di d 2 0 −4 16 3 −1 1 2 −2 4 7 +3 9 8 +4 16 4 0 0 Σ 0 46 A variância, então, será: s2 = ∑i=n i=1 d 2 i n− 1 = 46 5 = 9, 2 O desvio padrão será: s = √ s2 = √ 9, 2 = 3, 03 Comentários 1. A dispersão dos elementos de um conjunto é uma espécie de “propriedade” dos conjuntos, assim como as figuras geométricas planas possuem área, e as figuras em três dimensões possuem volume. 2. Leia novamente a Propriedade IV da média aritmética. É por consequência desta propriedade que utilizamos a variância. 3. Você deve estar perguntando: por que, afinal, não utilizamos a variância, apenas, sem mais esta medida do desvio padrão? A resposta é a seguinte: Suponha que estamos analisando as notas de uma turma, em que foram atribuídos “pontos” aos alunos, numa escala de 0 a 10. Então, podemos ter alunos com 0 ponto, 1, 2 ou 3 pontos, e assim por diante, até alunos com 10 pontos. Ao calcularmos a média das notas dos alunos, encontramos, por exemplo, o valor 6,8. Isto quer dizer que a média da turma é 6,8 pontos. A. F. Beraldo 51 3. Medidas Estatísticas de Dispersão Ao calcularmos as Medidas de Dispersão, temos: desvios di calculados em pontos, desvio médio calculado em pontos, e a variância em pontos ao quadrado (!). Ora, esta unidade de medida, “pontos ao quadrado”, não existe! Para voltarmos à unidade original, temos que extrair a raiz quadrada da variância - que é justamente o desvio padrão, cuja unidade é pontos... Agora, estamos sossegados. 4. A maioria dos autores faz uma distinção entre o cálculo da variância e do desvio padrão referindo-se a amostras ou aos elementos do conjunto Universo (ou popu- lação). Adotam expressões de cálculo ligeiramente diferentes para s2(variância de amostras) e para σ2 (variância de populações)2. As fórmulas são: Para amostras: s2 = ∑ d2 n− 1 (3.5) Para populações: σ2 = ∑ d2 N (3.6) Onde d2 é a expressão “quadrado do desvio”(di = xi − X), e n e N são, respectivamente, os tamanhos da amostra e da população, N >> n. O desvio padrão é calculado da mesma forma, seja para amostras, seja para populações: s = √ s2 para amostras e σ = √ σ2 para populações. Esta diferença não representa muito em termos de resultado, para n ou N superiores a 30. Daí que utilizaremos, nesta apostila, o denominador n − 1 para amostras de tamanho inferior a 30, e n, para amostras com tamanho maior ou igual a 30. Para populações, a mesma regra. Se aplicássemos a fórmula da variância com n, ao invés de n− 1 no denominador, os resultados seriam: s2 = 7, 67 e s = 2, 67. O erro cometido seria de 14%, para menos, no desvio padrão. Isto ocorreu porque o tamanho do conjunto é muito pequeno, 6 elementos apenas. 2Os motivos técnicos para esta distinção serão discutidos na Apostila III, Amostragem, Inferência de Testes 52 A. F. Beraldo 3.4 Coeficiente de variação Outra fórmula para o cálculo da variância pode ser deduzida da expressão que utilizamos. É a seguinte: s2 = ∑i=n i=1 d 2 i n −X2 (3.7) Você pode utilizar qualquer uma das expressões, dependendo da sua comodidade. 3.4 Coeficiente de variação O coeficiente de variação (CV) é a razão entre o desvio padrão e a média do conjunto. Sua fórmula, portanto, é: CV = s X (3.8) No exemplo atual, calculamos a média X = 4, 0 e o desvio padrão S = 3, 03. O coeficiente de variação será dado por: CV = s X = 3, 034, 0 = 0, 7575 Nota: Na prática, expressamos o valor do CV em porcentagem. O CV calculado acima será, então, CV = 76%. Comentários 1. As Medidas de Dispersão que estudamos analisam a disposição dos elementos amostrais em relação à média. Nas amostras, os elementos podem estar distantes da média (dispersos), ou concentrados em torno desta Estatística (caso das amos- tras homogêneas), ou mesmo esta disposição pode ser irregular, com uma parte da amostra concentrada e a outra dispersa. Novamente temos que aprofundar a análise destas Estatísticas, assim como fizemos com as Medidas de Tendência Central. 2. A Amplitude fornece uma ideia preliminar de como está a dispersão, a grosso modo, na amostra. Se a variável estatura dos indivíduos é que está sendo medida, uma amostra A com Amplitude R(A) = [1, 68m, 1, 72m] deve ter, teoricamente, uma A. F. Beraldo 53 3. Medidas Estatísticas de Dispersão dispersão de valores menor do que uma amostra B, com R(B) = [1, 60m, 1, 92m] - a “faixa de valores possíveis” em A é menor do que em B. Mas este é apenas o começo da nossa análise. 3. Os Desvios e o Desvio Médio, como vimos, são medidas um tanto imperfeitas.
Compartilhar