Baixe o app para aproveitar ainda mais
Prévia do material em texto
ALUNO (A): ------------------------------------------------------------------------------------- PROFESSOR (A): ---------------------------------------------------------------------------- CURSO DE QUALIFICAÇÃO PROFISSIONAL ECONOMETRIA GOVERNO DO ESTADO DOGOVERNO DO ESTADO DOGOVERNO DO ESTADO DOGOVERNO DO ESTADO DO AMAZONASAMAZONASAMAZONASAMAZONAS CETAM Centro de Educação Tecnológica do Amazonas SEPLAN Secretaria de Estado de Planejamento e Desenvolvimento Econômico APOSTILA DE ECONOMETRIA PROF. Geraldo Lopes de Souza Júnior 2 ÍNDICE 1 - INTRODUÇÃO A ESTATÍSTICA ................................................................................................................ 3 1.1 - UM POUCO DE HISTÓRIA ................................................................................................................... 3 1.2 - O QUE É ESTATÍSTICA?....................................................................................................................... 4 1.3 - POR QUE ESTUDAR ESTATÍSTICA? ................................................................................................... 4 1.4 - QUANDO E COMO SE DEVE USAR A ESTATÍSTICA? ....................................................................... 5 1.5 - SOFTWARES ESTATÍSTICOS................................................................................................................ 6 1.6 - ALGUNS CONCEITOS FUNDAMENTAIS ............................................................................................ 7 2 - ORGANIZAÇÃO, RESUMO E APRESENTAÇÃO DE DADOS ESTATÍSTICOS ................................ 8 2.1 - TIPOS DE DADOS ................................................................................................................................. 8 2.2 - DISTRIBUIÇÕES DE FREQÜÊNCIA .................................................................................................... 9 2.3 - MEDIDAS ............................................................................................................................................. 22 2.4 - ASSIMETRIA DAS DISTRIBUIÇÕES................................................................................................... 38 2.5 - DIAGRAMA EM CAIXAS...................................................................................................................... 43 3 - ANÁLISE BIDIMENSIONAL...................................................................................................................... 50 3.1 - ANÁLISE BIDIMENSIONAL DE VARIÁVEIS QUALITATIVAS .......................................................... 51 3.2 - ANÁLISE BIDIMENSIONAL DE VARIÁVEIS QUANTITATIVAS........................................................ 56 4 - ANÁLISE DE SÉRIES TEMPORAIS ......................................................................................................... 81 4.1 - MODELO CLÁSSICO DAS SÉRIES TEMPORAIS............................................................................... 83 4.2 - OBTENÇÃO DA TENDÊNCIA ............................................................................................................. 86 4.3 - OBTENÇÃO DAS VARIAÇÕES SAZONAIS ......................................................................................... 95 4.4 - OBTENÇÃO DE VARIAÇÕES CÍCLICAS E IRREGULARES ............................................................. 99 4.5 - RECOMPOSIÇÃO .............................................................................................................................. 104 5 - NÚMEROS ÍNDICES.................................................................................................................................. 112 5.1 - NÚMEROS ÍNDICES SIMPLES ......................................................................................................... 112 5.2 - NÚMEROS ÍNDICES COMPOSTOS.................................................................................................. 115 5.3 - MUDANÇA DE BASE DE UM NÚMERO ÍNDICE............................................................................ 119 5.5 - ÍNDICES BRASILEIROS E INTERNACIONAIS................................................................................. 122 REFERÊNCIAS ................................................................................................................................................ 141 3 1 - INTRODUÇÃO A ESTATÍSTICA Geralmente, quando começamos a lecionar um curso de estatística direcionado para não estatísticos, somos indagados por questões muito pertinentes. Como exemplo podemos citar: O que é estatística? Por que estudar estatística? O que a estatística tem haver com a formação profissional que estou almejando? Quando se deve usar a estatística? Como se deve usar a estatística? Na pretensão de responder essas e muitas outras perguntas, produzimos este material buscando uma linguagem acessível e atraente. 1.1 - UM POUCO DE HISTÓRIA Em uma pesquisa feita por um grande matemático e estatístico de nossos dias, Gauss Cordeiro, encontramos indícios estatísticos desde muito tempo antes de Cristo. Por exemplo, em 5000 a.C. já existiam registros egípcios de presos de guerra, em 3000 a.C. os jogos de dados, em 2000 a.C. temos o Censo Chinês, em 1500 a.C. dados de mortos em guerras no Velho Testamento, em 1100 a.C. já existiam registros de dados em livros da Dinastia Chinesa, em 400 a.C. é possível encontrarmos uma descrição detalhada de coleta de dados em livros de Constantinopla e em aproximadamente 100 a.C. Horácio usa um ábaco de fichas como instrumento de “cálculo portátil”. Para alguém já familiarizado com o curso de Administração Pública, esses dados podem ser vistos como indícios de relatórios gerenciais primitivos e não estatística propriamente dita. O leitor que afirma isso está parcialmente correto. Aqui ficam nítidas as raízes comuns entre a estatística e a administração. 4 Contudo, as intersecções não se dão apenas antes de Cristo. Muito pelo contrário, após Cristo os pontos em comuns se dão de forma mais consistentes e constantes. Temos em 400 d.C. o desenvolvimento da teoria dos números, em 695 d.C. a utilização da média ponderada pelos árabes na contagem de moedas, em 1303 d.C. a origem dos números combinatórios (Shihchieh Chu), em 1707 d.C. Números Índices (Fleetwood), em 1710 d.C. a primeira publicação de um Teste de Significância (John Arbuthnot), em 1892 d.C. determinação do Coeficiente de Correlação (Edgeworth) e em 1915 d.C. a fórmula do Lote Econômico (Harris). 1.2 - O QUE É ESTATÍSTICA? A fim de conceituar a estatística, podemos dizer que ela é uma reunião de métodos quantitativos que serve para estudar e medir os fenômenos acerca de uma população. Ou, um ramo da matemática que trata da coleta, da análise, da interpretação e da apresentação de massas de dados numéricos. Etimologicamente, criada por Schmeitzel (1785) a partir do latim status (estado), statisticum. Sendo usada originalmente na Idade Antiga para levantamentos de dados no intuito de auxiliar o estado na tomada de decisões. 1.3 - POR QUE ESTUDAR ESTATÍSTICA? Queremos chamar a atenção do estudante para dois objetivos relevantes. O primeiro, mais geral, é fazer com que o estudante possa distinguir entre problemas onde a estatística pode ser aplicada e problemas onde ela não se aplica. O segundo é que inclui a capacidade de reconhecer qual técnica se aplica à determinada situação e de utilizá-la da melhor formapossível na resolução do problema. Agora, responder a pergunta “Por que estudar estatística?” é uma tarefa para o leitor. Esta pergunta deve ser feita não só para a disciplina de estatística, mas para 5 todas as outras disciplinas. Desta forma será possível fazer um link entre as disciplinas estudadas em Ciências Contábeis e perceber a relevância da estatística para o curso. Contudo, podemos evidenciar o seguinte: O detentor de conhecimentos estatísticos pode ter uma visão mais crítica das informações expostas pela imprensa e das experiências do cotidiano que oferecem inúmeras interpretações; O raciocínio estatístico está amplamente difundido e é muito utilizado na administração pública e privada. Assim, é possível que, no futuro, um empregador venha a contratar ou promover um profissional por causa de seus conhecimentos estatísticos; Os administradores precisam do conhecimento da estatística para tomar algumas de suas decisões e para evitar serem ludibriados por certos resultados errôneos ou viciados; Muitos periódicos e revistas de administração pública e áreas afins trazem referências freqüentes a estudos estatísticos; Esperamos que estas razões possam dar uma idéia do que o estudante de Administração Pública pode esperar do seu estudo de estatística. 1.4 - QUANDO E COMO SE DEVE USAR A ESTATÍSTICA? Hoje, é muito comum ouvir algo do tipo: “As estatísticas mostram um crescimento econômico no último semestre”, “Segundo as estatísticas do ministério da agricultura, o cultivo de macaxeira e açaí é o responsável pelo decrescimento em dois pontos percentuais do desemprego no interior do Amazonas”, “O índice pluviométrico do rio Negro vem subindo a uma taxa de oito centímetros por dia”, “A taxa de criminalidade juvenil diminuiu em 60% no último ano de governo de Eduardo Braga”, “Houve um aumento de 120% na procura por educação nos ensinos fundamental e médio, afirma a SEMED”. Esses tipos de frases do nosso cotidiano são resultados de uma parte da estatística que utiliza números para descrever fatos, chamada apropriadamente de Estatística Descritiva. Podemos afirmar que a estatística descritiva é responsável pela organização, resumo, simplificação, interpretação e apresentação de informações um pouco mais complexas. 6 Outra parte da estatística, muito interessante, está relacionada com a teoria de probabilidade. Usamos a probabilidade para resolver questões que envolvem o acaso. Introdutoriamente podemos citar jogos de azar, resultados de partidas de futebol e resultados de lançamentos de moedas. Mais especificadamente, a aceitação de determinada abordagem em uma população em estudo, a decisão de investir na compra de determinadas ações, a decisão de contratar funcionários para empresa, todas utilizam a probabilidade consciente ou inconscientemente. A probabilidade nos dá “indicativos”, não certezas. Em uma de minhas leituras encontrei um caso curioso. Um aluno pergunta ao professor: “Se a probabilidade é a ‘ciência do acaso’, como faço para ganhar na loteria?”, assim o professor, como tantos outros conhecedores de estatística respondeu: “Se eu soubesse, não estaria aqui dando aulas!”. Por fim, temos um terceiro ramo da estatística que está interessado na análise e interpretação de dados amostrais: a inferência. Basicamente a amostragem aborda uma fração, o mais fidedigna possível, de determinada população e utiliza as informações extraídas deste pequeno grupo para fazer inferência sobre a população toda. A amostragem está presente no nosso dia a dia e podemos percebê-la através de certos procedimentos. Como exemplos, temos: assistir por alguns instantes determinado programa da TV para avaliar se vale a pena continuar assistindo; comer um pedacinho do bolo para ver se o bolo está bom; consultar apenas alguns alunos da classe para determinar o que a maioria pensa a respeito de determinado assunto. Deve ficar claro ao estudante de estatística que essas três áreas não são separadas ou distintas. Muito pelo contrário, elas tendem a se correlacionar. Descrever e resumir dados corresponde à primeira fase de uma análise estatística. É preciso ressaltar que os fundamentos de amostragem se baseiam na teoria de probabilidade. 1.5 - SOFTWARES ESTATÍSTICOS É comum ouvir dos alunos frases do tipo “Estatística não. Não gosto de fazer cálculos!”. Hoje um curso de estatística para Administração Pública exige 7 inicialmente do aluno um conhecimento básico de matemática (nada sofisticado) e certa familiaridade com o Windows ou Linux, editores de texto e planilhas. Os pacotes estatísticos mais usuais como o Minitab, SPSS e R, importam dados do Excel e/ou bloco de notas do Windows. Com eles é possível ter análises estatísticas (resumos, gráficos e tabelas) em curto espaço de tempo dando um ou dois “cliques”. Chamaremos a atenção para um pacote estatístico em particular, o Scientific Annalsys Ststistical - SAS. O SAS talvez seja, hoje, o pacote mais completo e eficiente disponível no mercado. 1.6 - ALGUNS CONCEITOS FUNDAMENTAIS Aqui deve começar de fato a familiarização com a linguagem estatística. Os conceitos ora apresentados são de grande importância para o curso e serão constantemente usados no decorrer do curso de estatística. População: coleção de elementos (pessoas, objetos, animais, itens) que são inerentes ao estudo de um fenômeno coletivo possuindo alguma característica em comum; Amostra: fração ou subconjunto da população; Parâmetro: característica numérica estabelecida para toda a população; Estimador: característica numérica estabelecida para uma amostra; Variável: característica não numérica de uma população ou amostra; Censo: é uma avaliação direta de um parâmetro, utilizando todos os componentes da população; Estimação: é uma avaliação indireta de um parâmetro, como base em um estimador; Dados brutos: é uma seqüência de valores numéricos não organizados, obtidos diretamente da observação de um fenômeno coletivo; Rol: é uma seqüência ordenada, de forma crescente ou decrescente, dos dados brutos. 8 2 - ORGANIZAÇÃO, RESUMO E APRESENTAÇÃO DE DADOS ESTATÍSTICOS 2.1 - TIPOS DE DADOS Podemos classificar as variáveis e os dados em estudo basicamente em dois grupos: Quantitativos (discretos ou contínuos) e Qualitativos (nominais ou ordinais). 2.1.1 - Dados quantitativos Os dados quantitativos envolvem variáveis que são inerentemente numéricas. Esse tipo de variável pode ser dividido em variáveis quantitativas discretas ou variáveis quantitativas continuas. Uma variável quantitativa discreta só pode assumir determinados valores, em geral inteiros. Os dados discretos originam-se da contagem de itens ou elementos com determinada característica. Como exemplos: o número de ações de uma empresa; o número de alunos numa sala de aula; a quantidade de acidentes numa fábrica; etc. As variáveis que podem assumir virtualmente qualquer valor num intervalo de valores são chamadas contínuas. Características como idade, altura, peso, renda, tempo necessário pra realizar determinada tarefa, enquadram-se nesta categoria. Os dados referentes a essas características e similares dizem-se contínuos, embora na prática os instrumentos de mensuração tenham limitações físicas que lhes restringem o grau de precisão. 2.1.2 - Dados qualitativos Os dados qualitativos envolvem variáveis que não são inerentemente numéricas, contudo as variáveis qualitativas devem ser convertidas em valores numéricos antes de serem processadas estatisticamente. Esse tipo de variável pode ser dividido em variáveis qualitativas nominais ou variáveis qualitativas ordinais. As variáveis qualitativasnominais envolvem categorias tais como sexo (masculino ou feminino), curso de estudo (Ciências Contábeis, Serviço Social, Administração, Filosofia, Pedagogia), desempenho (excelente, bom, regular, ruim), etc. Os dados 9 nominais surgem quando se definem categorias ou classes e se conta o número de observações pertencentes a cada categoria. Os dados ordinais consistem de valores atribuídos para denotar ordem: primeiro, segundo, terceiro, quarto, etc. Para cada tipo de variável existem técnicas diferentes para resumir as informações. Contudo, poderemos observar que as técnicas usadas num caso podem ser usadas para outros.Faz-se necessário evidenciar que em algumas situações é possível atribuir valores numéricos às várias qualidades ou atributos de uma variável qualitativa e depois analisar os dados como se esses fossem quantitativos. Mas isto só poderá ser feito se o procedimento for passível de interpretação.Existe um tipo de variável qualitativa para a qual essa quantificação é muito útil: a chamada variável dicotômica. Para essa variável só podem ocorrer duas realizações, usualmente chamadas sucesso e fracasso. A variável sexo é um bom exemplo disso. Organograma para o tipo de variáveis e dados 2.2 - DISTRIBUIÇÕES DE FREQÜÊNCIA Podemos afirmar que uma distribuição de freqüência é um método de agrupamento de dados em classes, possibilitando determinar o número ou percentual de elementos em cada uma destas classes. Assim, quando estamos trabalhando com um grande conjunto de dados, poderemos visualizá-lo sem precisar levar em conta os números individuais. Uma distribuição de freqüência pode ser apresentada sob a forma de uma tabela ou de um gráfico. Estudaremos agora como apresentar um resumo dos dados através de tabelas. Para fins ilustrativos, faremos uso das informações dispostas no Quadro 2.1. 10 Quadro 2.1: Informações sobre sexo, idade (medida em anos), altura (medida em metros), peso (medido em quilogramas), estado civil, renda (medida em reais), zona da cidade em que mora, naturalidade (somente o estado de nascimento), time que torce e pretensão salarial ao se formar (medida em reais) de 45 alunos do curso de econometria do CETAM, Manaus – 09/2010. Gênero Idade (anos) Altura (m) Peso (kg) Estado civil Renda individual (R$) Zona residencial Naturalidade (estado) Time Pret. Sal. ao se formar Tipo Sanguíneo F 33 1,54 51 solt 1.000,00 oeste amazonas Brasil 5.000,00 O + M 21 1,70 56 solt 800,00 centro-oeste piaui Corinthias 13.500,00 O + F 19 1,62 48 solt leste pará Flamengo 5.000,00 A + M 27 1,73 74 solt 1.200,00 oeste amazonas São paulo 4.500,00 A - M 25 1,75 72 solt 880,00 centro-oeste amazonas Vasco 5.000,00 O + M 19 1,73 70 solt 600,00 oeste amazonas Grêmio 3.000,00 A F 19 1,60 51 solt 800,00 centro-oeste amazonas - 50.000,00 - M 20 1,88 87 solt 800,00 centro-oeste amazonas Corinthias 3.000,00 O + M 32 1,73 64 solt 1.200,00 leste amazonas - 5.000,00 O + M 25 1,65 61 solt 350,00 sul amazonas Flamengo 5.000,00 A + F 36 1,65 76 solt 1.800,00 sul amazonas - 5.000,00 A + F 32 1,70 90 cas 1.100,00 - amazonas Corinthias 3.500,00 O + F 22 1,65 58 solt oeste amazonas Flamengo 4.000,00 O + M 21 1,73 75 solt 600,00 centro-oeste amazonas Flamengo 7.000,00 A + F 24 1,60 53 cas 1.100,00 oeste amazonas Flamengo 5.000,00 O + F 19 1,60 60 solt 400,00 centro-oeste amazonas Palmeiras 1.500,00 O + F 34 1,63 50 solt 490,00 oeste amazonas Nenhum 25.000,00 - F 54 1,68 75 solt 940,00 sul amazonas Nenhum 15.000,00 A + M 38 1,72 99,8 cas 1.200,00 centro-oeste amazonas Vasco 2.000,00 O + F 22 1,55 58 solt 700,00 norte amazonas Vasco 3.000,00 A+ F 24 1,54 46 solt 800,00 oeste amazonas Palmeiras 3.500,00 A + M 33 1,75 75 cas 500,00 oeste amazonas Fluminense 2.500,00 O + F 31 1,60 57 solt 1.200,00 oeste amazonas Vasco 4.000,00 A - F 20 1,47 42 solt 420,00 centro-sul amazonas Vasco 10.000,00 O + M 43 1,62 64 cas 1.500,00 oeste amazonas Vasco 6.000,00 AB + F 26 1,62 60 cas 300,00 oeste amazonas Nenhum 2.000,00 O + F 54 1,30 54 divorc. 3.200,00 norte amazonas Flamengo 2.400,00 A + F 44 1,57 68 divorc. 2.000,00 centro-oeste paraíba Flamengo 5.000,00 A + F 45 1,68 73 cas 1.200,00 sul amazonas Flamengo 1.800,00 B + F 37 1,51 56 cas 1.000,00 centro-oeste amazonas Palmeiras 4.000,00 A + F 31 1,58 56 cas 700,00 leste amazonas Nenhum - A + F 21 1,60 58 solt 600,00 oeste amazonas Palmeiras 20.000,00 A + M 43 1,70 66 cas 3.000,00 oeste amazonas Vasco 8.000,00 O + M 21 1,83 74 solt 350,00 sul amazonas Vasco 4.000,00 - F 18 1,55 55 solt 450,00 oeste amazonas Nenhum 2.000,00 O + M 25 1,82 71 solt 650,00 norte goias Corinthias 3.500,00 O + M 36 1,73 100 cas 1.800,00 - amazonas Flamengo - O + F 34 1,60 47 solt 1.500,00 norte amazonas Vasco 3.000,00 A+ F 57 1,56 95 cas 3.500,00 - amazonas Brasil 25.000,00 A + F 40 1,51 50 solt 2.900,00 oeste amazonas São paulo 6.000,00 O + F 19 1,62 62 solt 360,00 sul amazonas Flamengo 6.000,00 O + F 36 1,55 50 cas 1.500,00 oeste amazonas Flamengo 7.000,00 O + F 34 1,58 60 cas 636,00 leste roraima Brasil 20.000,00 O + F 25 1,58 52 solt 660,00 norte amazonas Flamengo 2.500,00 B + F 23 1,60 53 solt 600,00 oeste amazonas Flamengo 8.000,00 A + FONTE: PESQUISA DE CAMPO 11 2.2.1 - Elaboração de tabelas Alguns rigores são exigidos na construção de tabelas: É necessário saber previamente com que tipo de variável se deseja trabalhar (quantitativa ou qualitativa); É necessário definir quantas e quais classes deverão ser utilizadas de acordo com um objetivo pré-determinado; Se a variável for quantitativa, é necessário determinar a amplitude das classes (quando for conveniente); Toda tabela deve ter significado próprio, dispensando consultas ao texto; Toda tabela deve apresentar um título; Toda tabela deve informar a fonte dos dados e o texto que contem tal informação deve ser apresentado em tamanho inferior aos demais textos da tabela e deve estar em caixa alta; Nunca se fecha uma tabela nas laterais, esse procedimento objetiva permitir a entrada ou retiradas de informações; A tabela deve ser colocada em posição vertical, para facilitar a leitura dos dados. No caso em que isso seja impossível, deve ser colocada em posição horizontal, com o título voltado para a margem esquerda da folha; Se a tabela ou quadro não couber em uma página, deve ser continuado na página seguinte. Neste caso o final não será delimitado por traço horizontal na parte inferior e o cabeçalho será repetido na página seguinte; Não devem ser apresentadas tabelas nas quais a maior parte das classes indiquem inexistência do fenômeno. Para exemplificarmos, tomaremos as variáveis sexo (qualitativa nominal) e idade (quantitativa contínua). Assim poderemos resumir o conjunto de informações acerca dessas variáveis disposto no Quadro 2.1 em tabelas que nos darão idéia do todo. 12 Tabela 2.1: Freqüências e porcentagens dos 45 alunos do curso de econometria do CETAM segundo o sexo – setembro de 2010. Sexo Freqüência simples Freqüência relativa (%) Masculino 15 33,33 Feminino 30 66,67 Total 45 100,0 FONTE: DADOS HIPOTÉTICOS. Tabela 2.2: Freqüências e porcentagens dos 45 alunos do curso de econometria do CETAM segundo a idade – setembro de 2010. Idade Freqüência simples Freqüência relativa (%) Freqüência acumulada Freqüência acumulada relativa (%) 18├─ 24 15 33,33 15 33,33 24├─ 30 08 17,78 23 51,11 30├─ 40 14 31,11 37 82,22 40├─ 50 05 11,11 42 93,33 50├─ 60 03 06,67 45 100,0 Total 45 100,0 FONTE: DADOS HIPOTÉTICOS. Quando estudamos a variável sexo só temos duas alternativas possíveis.Cada indivíduo da população em estudo ou é do sexo masculino ou é do sexo feminino. Podemos considerar cada uma dessas possibilidades como uma categoria, ou ainda, uma classe. Sendo assim, a Tabela 2.1 se apresenta com duas classes: masculino e feminino. Observamos que 30 alunos do total de 45 são do sexo feminino e que este grupo representa 66,67% do total. Encontramos o número 30 como freqüência simples da segunda classe contando o número de pessoas que afirmaram ser do sexo feminino. O valor 66,67% é obtido quando dividimos a quantidade de pessoas do sexo feminino pelo total de pessoas e em seguida multiplicando esse resultado por cem. Assim, podemos concluir que o percentual atribuído a cada classe é dado pela freqüência relativa vezes cem. A equação da freqüência relativa é dada por: 13 Para as variáveis quantitativas podemos proceder de duas formas. A primeira é repetir o processo usado na construção da tabela 2.1, ou seja, identificar todas as classes (alternativas possíveis) e verificar a freqüência associada a cada uma dessas classes. Esse processo pode ser inviável se a variável em estudo possuir um número muito grande de possibilidades de respostas e/ou a população em estudo for muito numerosa. Para solucionar este problema apresentamos um outro procedimento. Reuni-se em uma única classe várias possibilidades de respostas. Se a variável em estudo é a idade, então podemos reunir em uma única classe todas as idades no intervalo de 18 a 24 anos, por exemplo. A tabela 2.2 apresenta a variável idade dividida em cinco classes. A primeira classe tem como limite inferior o número 18 e como limite superior o número 24. O sinal apresentado entre esses números nos da idéia do tipo de intervalo usado. Neste caso, dizemos que o intervalo da primeira classe é fechado em 18 e aberto em 24, ou seja, a primeira classe envolve todas as idades iguais ou maiores que 18 anos e menores que 24. Note que não entrará nesta classe uma observação igual a 24. Lê-se a classe 18├─ 24 da seguinte forma: de 18 anos inclusive até 24 anos exclusive. É possível termos classes dos tipos 18─┤24 (de 18 anos exclusive até 24 anos inclusive) ou 18├─┤24 (de 18 anos inclusive até 24 anos inclusive). A diferença entre o maior valor observado e o menor valor observado é chamado de amplitude total, geralmente representado por At. A diferença entre o limite superior e o limite inferior de cada classe recebe o nome de amplitude de classe, geralmente representado por h. É possível encontrar na literatura autores que definam equações para determinar o número de classes e a amplitude que cada classe deve ter. Por exemplo, para determinar o número K de classes: ou K = 1 + 3,33 log n . Em que o n é o número total de observações. Feito isso será possível determinar a amplitude da classe através da equação: É necessário atentar para o fato de que quando temos muitas observações esses caminhos se tornam inviáveis por determinarem um número muito grande de classes. Observe ainda que procedendo desta maneira todas as classes terão a 14 mesma amplitude, o que pode contrariar o objetivo do estudo. Por exemplo, se o interesse é verificar a quantidade de crianças, adolescentes, jovens, adultos e idosos de uma população composta de 900 pessoas, usando a variável idade, onde a menor idade observada é 1 ano e a maior é 81 anos. Usando as equações acima, teríamos entre 24 a 30 classes e cada classe possuiria uma amplitude igual a 3 ou 4. Isso geraria uma tabela muito carregada e possivelmente não explicitaria o objetivo do estudo. A melhor maneira de determinar o número de classes e a amplitude de cada classe é usar o bom senso. Ainda com o objetivo de verificar a quantidade de crianças, adolescentes, jovens, adultos e idosos de uma população, usando a variável idade, podemos dividi-la em apenas cinco classes de amplitudes diferente e atender de forma bastante satisfatória o objetivo do estudo, por exemplo: 0 ├─ 12, 12 ├─ 18, 18 ├─ 24, 24 ├─ 65, 65 ├─ 120. Podemos ter como interesse resumir simultaneamente os dados de duas variáveis. Neste caso usamos tabelas de dupla entrada (ou tabelas de contingência), onde deverão aparecer as freqüências simples e/ou as freqüências relativas que pertencem simultaneamente a classes de uma e outra variável. Quando consideramos duas variáveis podemos ter três situações: As duas variáveis são qualitativas; As duas variáveis são quantitativas; Uma variável é qualitativa e a outra é quantitativa. A seguir discutiremos acerca de uma tabela de dupla entrada para uma variável quantitativa versus uma variável quantitativa. Para tanto, usaremos as variáveis usadas para construir as tabelas 2.1 e 2.2 (sexo e idade). Deve ficar claro que um dos principais objetivos de se construir uma distribuição conjunta (uma tabela de dupla entrada, por exemplo) de duas variáveis é medir o grau de dependência entre elas, de modo que possamos prever o melhor resultado de uma delas quando conhecemos a realização da outra. 15 Construiremos uma tabela de dupla entrada a fim de verificar se existe ou não associação entre as variáveis sexo e idade usando as observações dispostas no quadro 2.1. Tabela 2.3: Distribuição conjunta das variáveis sexo e idade dos alunos do curso de econometria do CETAM – setembro de 2010. Sexo Idade (anos) Feminino Masculino Total 18├─ 24 10 5 15 24├─ 30 4 4 8 30├─ 40 10 4 14 40├─ 50 3 2 5 50├─ 60 3 0 3 Total 30 15 45 FONTE: DADOS HIPOTÉTICOS. Esse tipo de tabela nos trás boas informações. Podemos observar, por exemplo, que existem dez alunos do sexo feminino com idade entre 30 (inclusive) e 40 anos (exclusive). Observamos ainda que, independente da idade, existem 30 alunos do sexo feminino e 15 do sexo masculino. Perceba que os totais marginais para a variável sexo são iguais às freqüências simples dispostas na tabela 2.1 e que os totais marginais para a variável idade são iguais às freqüências simples dispostas na tabela 2.2. Esta forma de apresentação, através de freqüência simples, pode dificultar o entendimento uma vez que não temos uma idéia clara de cada informação em relação ao todo. Para tanto poderíamos ter essas informações expressas em termos percentuais. Tabela 2.4: Distribuição conjunta das proporções das variáveis sexo e idade dos alunos do curso de econometria do CETAM – setembro de 2010. Sexo Idade (anos) Feminino Masculino Total 18├─ 24 22,22 % 11,11 % 33,33 % 24├─ 30 08,89 % 08,89 % 17,78 % 30├─ 40 22,22 % 08,89 % 31,11 % 40├─ 50 06,67 % 04,44 % 11,11 % 50├─ 60 06,67 % 00,00 % 06,67 % Total 66,67 % 33,33 % 100,00 % FONTE: DADOS HIPOTÉTICOS. 16 Observe que não existem alunos do sexo masculino com idade superior a 50 anos. Os maiores percentuais (22,22%) são de alunos do sexo feminino com idades no intervalo de 18 a 24 anos ou no intervalo de 30 a 40 anos. Veja que, independente do sexo, existem 33,33% de alunos com idade entre 18 e 24 anos e apenas 6,67% de alunos com idade superior ou igual a 50 anos. Perceba que os totais marginais para a variável sexo são iguais às freqüências relativas dispostas na tabela 2.1 e que os totais marginais para a variável idade são iguais às freqüências relativas dispostas na tabela 2.2. Uma outra forma de apresentação de tabelas de dupla entra seria exibir em uma única tabela as freqüências relativas e percentuais. Para exemplificar, observemos a Tabela 2.5. Tabela 2.5: Distribuição conjunta dos valores absolutos e proporcionais das variáveis sexo e idade dos alunos do curso de econometria do CETAM - setembro de 2010 Sexo Idade (anos) Feminino Masculino Total 10 5 15 18├─ 24 22,22 % 11,11 % 33,33 % 4 4 824├─ 30 8,89 % 8,89 % 17,78 % 10 4 14 30├─ 40 22,22 % 8,89 % 31,11 % 3 2 5 40├─ 50 6,67 % 4,44 % 11,11 % 3 0 3 50├─ 60 6,67 % 0,0 % 6,67 % 30 15 45 Total 66,67 % 33,33 % 100,00 % FONTE: DADOS HIPOTÉTICOS. EM CADA ENTRADA, ENCONTRA-SE A FREQÜÊNCIA SIMPLES SOBRE A FREQÜÊNCIA RELATIVA. Assim podemos observar que existem dez alunos do sexo feminino com idade entre 30 (inclusive) e 40 anos (exclusive) e que esses dez alunos representam 22,22% do total. Observamos ainda que, independente da idade, 66,67%, ou 30 alunos, são do sexo feminino e 33,33%, ou 15 alunos, são do sexo masculino. 17 2.2.2. Elaboração de gráficos Uma outra forma de apresenta um resumo dos dados é através de gráficos. A representação gráfica de uma distribuição de uma variável tem a vantagem de, rápida e concisamente, informar sobre sua variabilidade. Existem vários gráficos que podem ser utilizados e abordaremos aqui os mais simples. Para representar variáveis qualitativas existem vários tipos de gráficos que obedecem o mesmo principio, logo nos limitaremos a apresentar três deles: gráficos de barras, colunas e setores circular (“pizza”). O gráfico em colunas consiste em construir tantos retângulos conforme o número de classes de seu interesse, em que a altura de cada um desses retângulos (classes) está relacionada diretamente com a freqüência (simples ou relativa). Essas colunas estão dispostas paralelamente umas às outras, no sentido vertical. No gráfico em barras são construídos tantos retângulos conforme o número de classes de seu interesse, em que o comprimento de cada um desses retângulos (classes) está relacionado diretamente com a freqüência (simples ou relativa). Essas barras estão dispostas paralelamente umas às outras, no sentido horizontal. Ao construirmos um gráfico, independente do tipo, devemos atentar para o tipo de variável com a qual estamos trabalhando. É necessário verificar se a variável em estudo é continua ou não. Se a variável for contínua, devemos demonstrar isso no gráfico, ou seja, as classes (barras, colunas ou setores) deverão ser apresentadas justapostas. Se a variável não for contínua as classes deverão ser apresentadas separadamente. Uma outra observação a ser feita é que usualmente o titulo da figura deve ser apresentado em baixo da figura. Apesar de termos as duas convenções supracitadas, é muito comum encontrarmos em revistas, periódicos, livros e em outros meios de informação, gráficos fugindo desses padrões. Isso torna esses “erros” comuns, mas não aceitáveis. Para exemplificar, tomaremos a variável qualitativa estado civil e a variável quantitativa idade. Nas figuras 2.1, 2.2 e 2.3 temos, respectivamente, gráfico em colunas, gráfico em setores circular e gráfico em barras para a variável estado civil. 18 Nas figuras 2.4, 2.5 e 2.6 temos, respectivamente, gráfico em colunas, gráfico em setores circular e gráfico em barras para a variável idade. As observações usadas para a elaboração desses gráficos foram retiradas do quadro 2.1. Figura 2.1: Gráfico em colunas para a variável estado civil dos alunos do curso de econometria do CETAM - setembro de 2010 Figura 2.2: Gráfico em setores circular para a variável estado civil dos alunos do curso de econometria do CETAM - setembro de 2010 19 Figura 2.3: Gráfico em barras para a variável estado civil dos alunos do curso de econometria do CETAM - setembro de 2010 Figura 2.4: Gráfico em colunas para a variável idade dos alunos do curso de econometria do CETAM - setembro de 2010 20 Figura 2.5: Gráfico em setores circular para a variável idade dos alunos do curso de econometria do CETAM - setembro de 2010 Figura 2.6: Gráfico em barras para a variável idade dos alunos do curso de econometria do CETAM - setembro de 2010 Podemos ter como interesse resumir simultaneamente os dados de duas variáveis em um único gráfico. A exemplo das tabelas de dupla entrada (ou tabelas de contingência), nos gráficos deverão aparecer as freqüências simples ou as 21 freqüências relativas que pertencem simultaneamente a classes de uma e outra variável. Para ilustrar, temos as figuras 2.7 e 2.8. Figura 2.7: Gráfico em colunas para a distribuição conjunta das variáveis sexo e idade dos alunos do curso de econometria do CETAM - setembro de 2010 Figura 2.8: Gráfico em barras para a distribuição conjunta das variáveis sexo e idade dos alunos do curso de econometria do CETAM - setembro de 2010 22 2.3 - MEDIDAS Até agora vimos que é possível resumir os dados e apresentá-los em forma de tabelas e gráficos. Contudo, quando estamos diante de um banco de dados é conveniente tentar resumi-lo através do cálculo de algumas medidas que a caracterizam. Estas medidas, quando bem interpretadas, podem fornecer-nos informações muito valiosas com respeito a este conjunto de dados. Em suma, podemos reduzi-lo a alguns valores, cuja interpretação fornece-nos uma compreensão bastante precisa de todo o conjunto de observações. Alguns destes valores são as medidas de tendência central outros são as medidas de dispersão. 2.3.1. Medidas de tendência central São valores intermediários do conjunto de dados, ou seja, valores compreendidos entre o menor e o maior valor da série. São também valores em torno dos quais os elementos do conjunto de dados estão distribuídos. A medida de tendência central procura estabelecer um número no eixo horizontal em torno do qual a série se concentra. As principais medidas de tendência central são: média, mediana e moda. 2.3.1.1. Média Do ponto de vista teórico, vários tipos de média podem ser calculados para uma massa de dados. Ressaltamos que a média aritmética é a mais usada, portanto a mais comum. Apresentaremos ainda as médias geométricas e harmônicas. Média aritmética simples: Para uma seqüência numérica X: x1, x2, x3, ..., xn , a média aritmética simples, que designaremos por X é definida por: n x X i∑= 23 Média aritmética ponderada: Para uma seqüência numérica X: x1, x2, x3, ..., xn , afetados de pesos p1, p2, p3, ..., pn, respectivamente, a média aritmética ponderada, que designaremos por pX , é definida por: ∑ ∑ = i ii p p px X Média geométrica simples Para uma seqüência numérica X: x1, x2, x3, ..., xn , a média geométrica simples, que designaremos por gX , é definida por: n ng xxxxX ...321= Média geométrica ponderada Para uma seqüência numérica X: x1, x2, x3, ..., xn , afetados de pesos p1, p2, p3, ..., pn, respectivamente, a média geométrica ponderada, que designaremos por gpX , é definida por: ∑ = i np p n ppp gp xxxxX ...321 321 Média harmônica simples Para uma seqüência numérica de elementos não nulos X: x1, x2, x3, ..., xn , a média harmônica simples, que designaremos por hX , é definida por: n h xxxx nX 1 ... 111 321 ++++ = ou ∑ = i h x nX 1 Note que a média harmônica é o inverso da média aritmética dos inversos dos elementos. Média harmônica ponderada Para uma seqüência numérica de elementos não nulos X: x1, x2, x3, ..., xn , afetados de pesos p1, p2, p3, ..., pn, respectivamente, a média harmônica ponderada que designaremos por hpX é definida por: 24 n n i hp x p x p x p x p p X ++++ = ∑ ... 3 3 2 2 1 1 ou ∑ ∑ = i i i hp x p p X A média harmônica aplica-se naturalmente quando sequer a obtenção de uma média cuja unidade de medida seja o inverso da unidade de medida dos componentes da seqüência original. A média geométrica só é indicada para representar uma série de valores aproximadamente em progressão geométrica. Os casos anteriores não são muito freqüentes nas aplicações. Vamos restringir o desenvolvimento de médias ao caso de média aritmética, que é a média mais utilizada nas aplicações. 2.3.1.2. Cálculo da Média Aritmética Dados brutos ou rol Neste caso, devemos utilizar uma média aritmética simples: n x X i∑= Dados tabelados Se os dados estão apresentados na forma de uma tabela, utilizaremos a média aritmética ponderada, considerando as freqüências simples fi como sendo as ponderações dos elementos xi correspondentes. A equação da média que originalmente era ∑ ∑ = i ii p px X passa a ser escrita como: ∑ ∑ = i ii f fx X Obs: Para tabelas de variáveis continuas, o valor de xi é o ponto médio da classe i. 25 2.3.1.3. Mediana É um valor real que separa o rol em duas partes deixando à sua esquerda o mesmo número de elementos que a sua direita. Portanto, a mediana é um valor que ocupa a posição central em um conjunto de dados. A mediana será denotada por md. 2.3.1.4. Cálculo da Mediana Dados brutos ou rol Inicialmente devemos ordenar os elementos caso sejam dados brutos, obtendo o Rol. Em seguida determinamos o número n de elementos do Rol. Se n é impar, o Rol admite apenas um termo central que ocupa a posição + 2 1n º. O valor do elemento que ocupa esta posição é a mediana. Se n é par, o rol admite dois termos centrais que ocupam as posições 2 n º e + 1 2 n º. A mediana é convencionada como sendo a média dos valores que ocupam estas posições centrais. Quando lidamos com um conjunto de dados muito grande, a quantidade de elementos à esquerda é à direita é aproximadamente 50% do total de elementos, o que conduz a seguinte interpretação genérica para a mediana: "50% dos valores do conjunto de dados são valores menores ou iguais a mediana e 50% dos valores do conjunto de dados são valores maiores ou iguais a mediana". Dados tabelados - variável discreta Se os dados estão apresentados na forma de uma variável discreta, eles já estão naturalmente ordenados. Assim, basta verificar se o número de elementos da série é ímpar ou par e aplicar o mesmo raciocínio do caso anterior. Dados tabelados - variável contínua Se a dados são apresentados na forma de uma variável contínua, o raciocínio anterior não pode ser utilizado, uma vez que mesmo identificada a posição da mediana no conjunto de dados, o valor do elemento da série que ocupa esta posição não é identificável. Assim, para determinar a mediana temos a equação: 26 hf Fn lm d d m ant md − += 2 em que: 1md = limite inferior da classe mediana. n = número de elementos do conjunto de dados. Fant = freqüência acumulada da classe anterior à classe mediana. fmd = freqüência simples da classe mediana. h = amplitude do intervalo de classe. COMENTÁRIO: Devido às condições impostas na obtenção da fórmula da mediana, fica evidente que o valor obtido pela fórmula é um valor aproximado do verdadeiro valor da mediana do conjunto de dados. De modo geral, todas as medidas calculadas para uma variável contínua serão valores aproximados para estas medidas, uma vez que ao agruparmos os dados segundo uma variável contínua, há perda de informações quanto à identidade dos dados. 2.3.1.5. Moda É o valor de maior freqüência em um conjunto de dados. Notação: A moda será denotada por mo. 2.3.1.6. Cálculo da Moda Dados brutos ou rol Basta identificar o elemento de maior freqüência. Se a maior freqüência for atribuída a um único valor, dizemos que o conjunto de dados é unimodal. Se a maior freqüência for atribuída a valores distintos, dizemos que o conjunto de dados é bimodal. Poderemos encontrar seqüências trimodais, tetramodais e assim sucessivamente. Estes conjuntos de observações serão chamados de forma genérica por seqüências polimodais. Se todos os valores do conjunto de dados apresentam a mesma freqüência, dizemos que o conjunto de dados é amodal. 27 Dados tabelados - variável discreta Este caso é ainda mais simples. Note que na apresentação da variável discreta, as freqüências já estão computadas. Basta identificar o elemento de maior freqüência. Dados tabelados - variável contínua Para determinar a moda de uma variável contínua, podemos optar por vários processos. Daremos destaque para a moda de Pearson, de King e de Czuber. Moda de Pearson: Segundo PEARSON, a moda de uma variável contínua pode ser obtida através do valor da média e da mediana: Xmm do 23 −= Moda de King KING levou em consideração, em sua fórmula, a freqüência simples da classe anterior e a freqüência simples da classe posterior à classe modal. hff f lm postant post mo o + += em que: lmo = limite inferior da classe modal fpost = freqüência simples da classe posterior à classe modal fant = freqüência simples da classe anterior à classe modal h = amplitude do intervalo de classe Moda de CZUBER CZUBER levou em consideração, em sua fórmula a freqüência simples da classe anterior, a freqüência simples da classe posterior, além da freqüência simples da classe modal. É, portanto, uma fórmula mais completa que a fórmula de King. hfff ff lm postantm antm mo o o o )(2 +− − += em que: lmo = limite inferior da classe modal fmo = freqüência simples da classe modal. 28 fpost = freqüência simples da classe posterior à classe modal fant = freqüência simples da classe anterior à classe modal h = amplitude do intervalo de classe COMENTÁRIO: A fórmula de Pearson tem normalmente interesse teórico. Se não dispusermos da média e da mediana da distribuição, a fórmula de Pearson é a mais trabalhosa. A fórmula de King é a mais simples delas, mas não é a mais precisa. A fórmula de Czuber é mais precisa que a fórmula de King, pois leva também em consideração a freqüência da classe modal. 2.3.2. Utilização das Medidas de Tendência Central Na maioria das situações, não necessitamos calcular as três medidas de tendência central. Normalmente precisamos de apenas uma das medidas para caracterizar o centro da série. Surge, então, a questão: qual medida deve ser utilizada? A medida ideal em cada caso é aquela que melhor representa a maioria dos dados da série. Quando todos os dados de uma série estatística são iguais, a média, a mediana e a moda coincidirão com este valor e, portanto qualquer uma delas representará bem a série. No entanto, este caso dificilmente ocorrerá na prática. Na maioria das vezes, teremos valores diferenciados para a série e conseqüentemente a medida irá representar bem, apenas os dados da série que se situam próximos a este valor. Os dados muito afastados em relação ao valor da medida não serão bem representados por ela. Desta forma, se uma série apresenta forte concentração de dados em sua área central, a média, a mediana e a moda ficam também situadas em sua área central representando bem a série. Como a mais conhecida é a média, optamos por esta medida de tendência central. Concluindo, devemos optar pela média, quando houver forte concentração de dados na área central da série. Se uma série apresenta forte concentração de dados em seu início, a mediana e a moda estarão posicionadas mais no inícioda série, representando bem esta 29 concentração. A média que é fortemente afetada por alguns valores posicionados no final da série se deslocará para a direita desta concentração não a representando bem. Como a mais conhecida entre mediana e moda é a mediana, esta será a medida indicada neste caso. A mesma situação ocorre se a série apresenta forte concentração de dados em seu final. Concluindo, devemos optar pela mediana, quando houver forte concentração de dados no início ou no final da série. A moda deve ser a opção como medida de tendência central apenas em séries que apresentam um elemento típico, isto é, um valor cuja freqüência é muito superior à freqüência dos outros elementos da série. 2.3.3. Exemplos do uso de medidas de tendência central Como exemplo tomaremos as notas atribuídas aos alunos da sétima serie do Centro Educacional Elisa Bessa (CEEB) nas disciplinas de Português, Matemática, Historia e Geografia. Vale ressaltar que o CEEB possui uma política de diferenciação de disciplinas atribuindo um grau de importância (ou peso) diferente para cada disciplina. O Quadro 2.3, mostra a nota dos alunos em cada disciplina sem levar em conta o peso atribuído a cada disciplina. O Quadro 2.2 apresenta os pesos atribuídos a cada disciplina. Quadro 2.2: Pesos atribuídos às disciplinas do Centro Educacional Elisa Bessa Disciplinas Pesos Português 3 Matemática 1 Historia 2 Geografia 2 Total 8 FONTE: SECRETÁRIA DO CEEB. 30 Na tentativa de fazer uma avaliação da turma, o centro pedagógico do CEEB utilizou algumas medidas de tendência central. A primeiro passo foi calcular a média de cada aluno da turma, para tanto foram somadas as notas das quatro disciplinas e dividido por quatro. Esses resultados estão apresentados no Quadro 2.4. Quadro 2.3: Notas dos alunos da sétima série do Centro Educacional Elisa Bessa Número do aluno Português Matemática História Geografia 1 7,7 3,5 3,3 8,3 2 6,7 7,4 5,8 7,1 3 8,7 5,7 9,6 8,7 4 9,2 4,3 6,9 7,4 5 4,3 5,3 7,2 5,2 6 6,3 3,9 8,5 7,9 7 7,5 5,3 6,6 5,2 8 6,9 4,0 9,9 9,4 9 4,7 5,6 8,2 8,0 10 8,7 7,1 9,1 6,1 11 8,3 4,2 7,6 9,8 12 8,4 5,6 7,7 8,1 13 7,5 9,4 9,0 8,7 14 9,1 5,0 7,9 7,3 15 5,4 9,9 9,0 5,4 16 9,0 6,9 6,8 7,1 17 9,3 7,0 6,9 5,9 18 7,2 5,1 7,1 8,7 19 8,8 4,5 6,9 7,5 20 4,1 7,2 6,8 3,0 Média 7,4 5,8 7,5 7,2 FONTE: SECRETÁRIA DO CEEB. 31 Quadro 2.4: Média individual dos alunos da sétima série do CEEB Número do aluno Cálculo da média Resultado 1 (7,7 + 3,5 + 3,3 + 8,3) / 4 = 5,70 2 (6,7 + 7,4 + 5,8 + 7,1) / 4 = 6,75 3 (8,7 + 5,7 + 9,6 + 8,7) / 4 = 8,18 4 (9,2 + 4,3 + 6,9 + 7,4) / 4 = 6,93 5 (4,3 + 5,3 + 7,2 + 5,2) / 4 = 5,52 6 (6,3 + 3,9 + 8,5 + 7,9) / 4 = 6,64 7 (7,5 + 5,3 + 6,6 + 5,2) / 4 = 6,13 8 (6,9 + 4,0 + 9,9 + 9,4) / 4 = 7,52 9 (4,7 + 5,6 + 8,2 + 8,0) / 4 = 6,63 10 (8,7 + 7,1 + 9,1 + 6,1) / 4 = 7,74 11 (8,3 + 4,2 + 7,6 + 9,8) / 4 = 7,49 12 (8,4 + 5,6 + 7,7 + 8,1) / 4 = 7,45 13 (7,5 + 9,4 + 9,0 + 8,7) / 4 = 8,67 14 (9,1 + 5,0 + 7,9 + 7,3) / 4 = 7,31 15 (5,4 + 9,9 + 9,0 + 5,4) / 4 = 7,43 16 (9,0 + 6,9 + 6,8 + 7,1) / 4 = 7,43 17 (9,3 + 7,0 + 6,9 + 5,9) / 4 = 7,28 18 (7,2 + 5,1 + 7,1 + 8,7) / 4 = 7,03 19 (8,8 + 4,5 + 6,9 + 7,5) / 4 = 6,92 20 (4,1 + 7,2 + 6,8 + 3,0) / 4 = 5,28 Com base na média aritmética, 3 alunos possuíram média final abaixo de 6. Com tudo, é interesse da instituição ponderar as disciplinas. Sendo assim, um novo 32 cálculo foi feito (Quadro 2.5) e novas médias foram encontradas. Agora, 2 alunos apresentavam média abaixo de 6. Quadro 2.4: Média ponderada individual dos alunos da sétima série do CEEB Número do aluno Cálculo da média Resultado 1 (7,7 x 3 + 3,5 x 1 + 3,3 x 2 + 8,3 x 2) / 8 = 6,23 2 (6,7 x 3 + 7,4 x 1 + 5,8 x 2 + 7,1 x 2) / 8 = 6,65 3 (8,7 x 3 + 5,7 x 1 + 9,6 x 2 + 8,7 x 2) / 8 = 8,56 4 (9,2 x 3 + 4,3 x 1 + 6,9 x 2 + 7,4 x 2) / 8 = 7,55 5 (4,3 x 3 + 5,3 x 1 + 7,2 x 2 + 5,2 x 2) / 8 = 5,39 6 (6,3 x 3 + 3,9 x 1 + 8,5 x 2 + 7,9 x 2) / 8 = 6,94 7 (7,5 x 3 + 5,3 x 1 + 6,6 x 2 + 5,2 x 2) / 8 = 6,41 8 (6,9 x 3 + 4,0 x 1 + 9,9 x 2 + 9,4 x 2) / 8 = 7,89 9 (4,7 x 3 + 5,6 x 1 + 8,2 x 2 + 8,0 x 2) / 8 = 6,52 10 (8,7 x 3 + 7,1 x 1 + 9,1 x 2 + 6,1 x 2) / 8 = 7,94 11 (8,3 x 3 + 4,2 x 1 + 7,6 x 2 + 9,8 x 2) / 8 = 8,00 12 (8,4 x 3 + 5,6 x 1 + 7,7 x 2 + 8,1 x 2) / 8 = 7,80 13 (7,5 x 3 + 9,4 x 1 + 9,0 x 2 + 8,7 x 2) / 8 = 8,43 14 (9,1 x 3 + 5,0 x 1 + 7,9 x 2 + 7,3 x 2) / 8 = 7,82 15 (5,4 x 3 + 9,9 x 1 + 9,0 x 2 + 5,4 x 2) / 8 = 6,88 16 (9,0 x 3 + 6,9 x 1 + 6,8 x 2 + 7,1 x 2) / 8 = 7,70 17 (9,3 x 3 + 7,0 x 1 + 6,9 x 2 + 5,9 x 2) / 8 = 7,57 18 (7,2 x 3 + 5,1 x 1 + 7,1 x 2 + 8,7 x 2) / 8 = 7,30 19 (8,8 x 3 + 4,5 x 1 + 6,9 x 2 + 7,5 x 2) / 8 = 7,46 20 (4,1 x 3 + 7,2 x 1 + 6,8 x 2 + 3,0 x 2) / 8 = 4,89 33 O centro pedagógico do CEEB observou que a menor média entre as disciplinas era a de matemática com um valor igual a 5,8. A fim de obter mais informações sobre esse conjunto de dados (notas de matemática), a o centro pedagógico construiu um Rol para esses dados e em seguida calculou a mediana, a moda e apresentou um resumo dos dados na Tabela 2.6. Rol: 3,5; 3,9; 4,0; 4,2; 4,3; 4,5; 5,0; 5,1; 5,3; 5,3; 5,6; 5,6; 5,7; 6,9; 7,0; 7,1; 7,2; 7,4; 9,4; 9,9. Para o cálculo da mediana, foram tomados o 10º e o 11º elementos e em seguida foi calculada a media desses dois números. 45,5 2 6,53,5 = + =dm Para determinar a moda, foi observada a maior freqüência entre as observações. Chegando a conclusão de que a serie e bimodal, pois os valores 5,3 e 5,6 apresentam a mesma freqüência. Tabela 2.6: Divisão da 7ª série do CEEB quanto à nota de matemática Notas de matemática Freqüência simples Freqüência acumulada 3,0 |-- 4,5 5 5 4,5 |-- 6,0 8 13 6,0 |-- 7,5 5 18 7,5 |-- 9,0 0 18 9,0 |-- 10,0 2 20 Total 20 FONTE: SECRETARIA DO CEEB Data a tabela acima é possível calcular a mediana e moda. 44,55,1 8 5105,42 =−+= − += hf Fn lm d d m ant md 25,55,1 55 55,4 = + += + += hff f lm postant post mo o 34 2.3.4. Medidas de dispersão São necessários dois tipos de medidas para descrever adequadamente um conjunto de dados. Além da informação quanto ao "meio" de um conjunto de números, é conveniente dispormos também de um método que nos permita exprimir a dispersão. As medidas de dispersão indicam se os valores estão relativamente próximos uns dos outros, ou separados. Consideraremos quatro medidas de dispersão: o desvio médio, a variância, desvio padrão e o coeficiente de variação. Todas elas têm na média o ponto de referência. Em cada caso, o valor zero indica ausência de dispersão; a dispersão aumenta à proporção que aumenta o valor da medida (desvio, variância, etc.). 2.3.4.1. Desvio médio absoluto O desvio médio absoluto (DMA) mede o desvio médio dos valores em relação à média do grupo, ignorando o sinal do desvio. Calcula-se subtraindo a média de cada valor do grupo e desprezando o sinal (+ ou -) do desvio, e tomando a média em seguida. Ao calcular o desvio médio, é necessário levar em conta o fato de que a soma dos desvios positivos e negativos a contar da média será sempre (por definição) igual a zero. A conversão das diferenças a valores absolutos (todos os valores são considerados como desvios positivos) antes de se proceder à soma resolve o problema. Calcula-se então o desvio médio absoluto pela seguinte equação: n Xx DMA i∑ − = Em que n é o número de observações no conjuntode dados. Apesar de ser relativamente fácil calcular e entender o DMA, esse não é muito utilizado por haver outras medidas que apresentam propriedades matemáticas mais interessantes. O DMA possui algumas aplicações no controle de inventários. 2.3.4.2. Variância e desvio-padrão A variância é uma média aritmética calculada a partir dos quadrados dos desvios obtidos entre os elementos do conjunto de dados e a sua média. O desvio padrão é a raiz quadrada positiva da variância. 35 Em particular, para estas medidas levaremos em consideração o fato de a seqüência de dados representar toda uma população ou apenas uma amostra de uma população. Notações: Quando a seqüência de dados representa uma População a variância será denotada por )(2 Xσ e o desvio padrão correspondente por )(Xσ . Quando a seqüência de dados representa uma amostra, a variância será denotada por S2(X) e o desvio padrão correspondente por S(X). 2.3.4.3. Cálculo da variância e do desvio padrão Dados brutos ou Rol Se o conjunto de dados representa uma População, a variância é calculada pela equação: ( ) n Xx X i∑ − = 2 2 )(σ Conseqüentemente, o desvio-padrão será dado por: ( ) n Xx XX i∑ − == 2 2 )()( σσ Se o conjunto de dados representa uma amostra, a variância é calculada pela equação: ( ) 1 )( 2 2 − − = ∑ n Xx XS i Conseqüentemente, o desvio-padrão será dado por: ( ) 1 )()( 2 2 − − == ∑ n Xx XSXS i Dados tabelados – variável discreta Como há repetições de elementos no conjunto de dados, definimos a variância como sendo uma media aritmética ponderada dos quadrados dos desvios dos elementos do conjunto de dados. Variância para população: ( ) ∑ ∑ − = i ii f fXx X 2 2 )(σ 36 Desvio padrão para população: ( ) ∑ ∑ − == i ii f fXx XX 2 2 )()( σσ Variância para amostra: ( ) ∑ ∑ − − = 1 )( 2 2 i ii f fXx XS Desvio padrão para amostra: ( ) ∑ ∑ − − == 1 )()( 2 2 i ii f fXx XSXS Dados tabelados – variável contínua Novamente, por desconhecer os particulares valores de xi do conjunto de dados, substituiremos nas equações anteriores estes valores pelos pontos médios da classe. Variância para população: ( ) ∑ ∑ − = i ii f fXx X 2 2 )(σ onde xi é o ponto médio da classe i. Variância para amostra: ( ) ∑ ∑ − − = 1 )( 2 2 i ii f fXx XS onde xi é o ponto médio da classe i. COMENTÁRIOS: No cálculo da variância, quando elevamos ao quadrado a diferença ( )Xxi − , a unidade de medida da série fica também elevada ao quadrado. Portanto, a variância é dada sempre no quadrado da unidade de medida da série. Se os dados são expressos em metros, a variância é expressa em metros quadrados. Em algumas situações, a unidade de medida da variância nem faz sentido. É o caso, por exemplo, em que os dados são expressos em litros. A variância será expressa em litros quadrados. Portanto, o valor da variância não pode ser comparado diretamente com os dados da série, ou seja: variância não tem interpretação. Exatamente para suprir esta deficiência da variância é que se define o desvio padrão. 37 2.3.4.4. Coeficiente de variação (C.V.) Em trabalhos experimentais, através deste parâmetro, comprovamos a precisão alcançada, embora não seja apenas esta a sua finalidade. Este coeficiente é expresso em percentagem, sendo utilizado em trabalhos científicos. É calculado pela equação: ( ) X XXCV )(σ= 2.3.4.5. Exemplos do uso de medidas de tendência central Observamos anteriormente que a média da turma de matemática da sétima série do CEEB era igual a 5,8, a mediana igual a 5,45 e as modas iguais a 5,3 e 5,6. Estas “características” nos dão alguma idéia sobre a população em estudo. Outras “características” que podem “melhorar a idéia” de como a turma se comporta, são a variância, o desvio-padrão e o coeficiente de variação. Para calcularmos estas três ultimas medidas, utilizaremos o mesmo Rol utilizado anteriormente (o rol da turma de matemática). Rol: 3,5; 3,9; 4,0; 4,2; 4,3; 4,5; 5,0; 5,1; 5,3; 5,3; 5,6; 5,6; 5,7; 6,9; 7,0; 7,1; 7,2; 7,4; 9,4; 9,9. Variância ( ) 94199,2 20 )8,59,9(...)8,59,3()8,55,3()( 2222 2 = −++−+− = − = ∑ n Xx X iσ Desvio-padrão 7,1)()( 2 == XX σσ Coeficiente de variação ( ) %31,292931,0 8,5 7,1)( ou X XXCV === σ 38 Tomando como fonte a Tabela 2.6, os cálculos para a variância, o desvio- padrão e o coeficiente de variação, são: Variância ( ) 2,76625 20 25,8)(9,5...85,8)(5,2555,8)(3,75 f fXx(X)σ 222 i i 2 i2 = −++−+− = − = ∑ ∑ Desvio-padrão 6632,1)()( 2 == XX σσ Coeficiente de variação ( ) %68,282868,0 8,5 6632,1)( ou X XXCV === σ 2.4 - ASSIMETRIA DAS DISTRIBUIÇÕES Identificar se a distribuição de uma variável quantitativa em um determinado conjunto de dados é simétrica ou assimétrica pode ser de grande valia por vários motivos: Se os dados são provenientes de uma amostra, identificar a simetria ou não da distribuição pode ser necessário para selecionar o modelo probabilístico mais adequado para descrever a variável na população. No caso de um experimento, em que todas as causas de variação indesejadas são suprimidas, a ocorrência de assimetria quando era esperada simetria, ou o contrário, pode ser indicar que houve algum erro de planejamento ou de medição. Nos casos em que são comparadas distribuições da mesma variável quantitativa em situações diferentes a identificação de um comportamento assimétrico ou simétrico, inesperado ou diferenciado, pode alertar para aspectos anteriormente despercebidos, ou existência de erros. 39 Alguns programas computacionais calculam uma medida de assimetria (“skewness”): quando este valor é exatamente igual a zero a distribuição em questão é perfeitamente simétrica. Mas a forma ideal de analisar a simetria de uma distribuição é combinar a avaliação das medidas e de um gráfico, seja um histograma ou um diagrama em caixas. As figuras 2.9 a 2.11 irão apresentar gráficos de distribuições que poderiam ser ajustados a histogramas. Média Mediana Moda freq Figura 2.91 - Distribuição assimétrica negativa (assimétrica para a esquerda) Observe que o "pico" da distribuição, identificado pela moda, está à direita do gráfico, indicando que "falta algo" à esquerda, justificando a denominação "assimétrica à esquerda". Observe também que a mediana é maior do que a média. Há uma medida estatística de assimetria que calcula a diferença entre média e mediana: quando a diferença é negativa (mediana maior do que a média) a distribuição é "assimétrica negativa". Este tipo de distribuição não é muito comum na prática, pois é mais difícil obter valores excepcionalmente pequenos (à esquerda) Moda Mediana Média freq. Figura 2.10 - Distribuição assimétrica positiva (assimétrica para a direita) 40 Observe que o "pico" da distribuição, identificado pela moda, está à esquerda do gráfico, indicando que "falta algo" à direita, justificando a denominação "assimétrica à direita". Observe também que a média é maior do que a mediana. Agora a diferença entre média e mediana será positiva: quando a diferença é positiva a distribuição é "assimétrica negativa". Este tipo de distribuição é razoavelmente comum na prática,pois é fácil obter valores excepcionalmente altos, sendo o caso mais típico a variável renda. Moda = Média = Mediana freq. Figura 2 - Distribuição simétrica Observe que as três medidas de posição coincidem. E que aproximadamente metade dos dados estão abaixo do centro e a outra metade acima, ou seja a distribuição é "simétrica" em relação às suas medidas de posição. A diferença entre média e mediana é igual a zero. Muitas variáveis apresentam distribuição simétrica, especialmente aquelas resultantes de medidas corpóreas, mas não somente. A seguir apresentamos histogramas de distribuições assimétricas e simétrica. f x Figura 2.12 - Histograma de distribuição simétrica 41 f x Figura 2.13 - Histograma de distribuição assimétrica para a direita (negativa) f x Figura 3.14 - Histograma de distribuição assimétrica para a esquerda (positiva) Além das medidas de posição podemos utilizar as separatrizes para avaliar não só a simetria, mas também a dispersão de um conjunto de dados. O procedimento para verificar a existência de assimetria consiste em avaliar a diferença existente entre os quartis e a mediana: se os quartis inferior e superior estiverem à mesma distância da mediana, a distribuição do conjunto pode ser considerada simétrica. A avaliação da dispersão depende da existência de um padrão para comparação, seja um outro conjunto de dados ou alguma especificação. Um conjunto de dados apresentará maior dispersão do que outro se os seus quartis estiverem mais distantes da mediana. Observe as figuras a seguir. Simétrico MdQi Qs 25% 25% 25% 25% Figura 4.15 - Quartis de uma distribuição simétrica - 1o caso Observe que a diferença Qs - Md é igual à diferença Md - Qi, o que indica a simetria do conjunto. É importante lembrar que os quartis dividem o conjunto em 4 partes iguais (25% dos dados). 42 Simétrico, com maior dispersão Qi QsMd 25% 25% 25% 25% Figura 5 - Quartis de uma distribuição simétrica - 2o caso Mas agora a dispersão do conjunto é maior, quando comparada ao 1o caso: os quartis estão mais distantes da mediana (as diferenças Qs - Md e Md - Qi serão maiores do que as obtidas no 1o caso). Assimétrico para a direita Qi QsMd 25% 25% 25% 25% Figura 6.17 - Quartis de uma distribuição assimétrica para a direita O conjunto apresenta uma dispersão mais elevada nos valores maiores. Isso fez com que o quartil superior aumentasse de valor ("deslocando-o para a direita"), e ficasse mais distante da mediana do que o inferior, significando assimetria para a direita (ou positiva). Assimétrico para a esquerda Qi QsMd 25% 25% 25%25% Figura 7.18 - Quartis de uma distribuição assimétrica para a esquerda Neste caso ocorre o oposto da figura 26. Há maior dispersão nos valores mais baixos, fazendo com que o quartil inferior aumentasse de valor, e ficasse mais distante da mediana do que o superior, significando assimetria para a esquerda (ou negativa). A avaliação da assimetria através dos quartis também pode ser em um diagrama em caixas. Observe que a diferença Qs - Md continua igual à diferença Md - Qi, o que indica a simetria do conjunto. Na figura 26 é fácil perceber diferenças são claramente desiguais: há assimetria. E como Qs - Md é maior do que Md - Qi é para a direita. Na figura 27 novamente as diferenças são claramente desiguais: há assimetria. E como Md - Qi é maior do que Qs - Md é para a esquerda. 43 2.5 - DIAGRAMA EM CAIXAS O Diagrama em Caixas, também chamado de Desenho Esquemático, Box- plot ou Box & Whisker plot é um gráfico que permite avaliar facilmente os valores típicos, a assimetria, a dispersão e os dados discrepantes de uma distribuição de dados de uma variável QUANTITATIVA. É indicado para grandes conjuntos de dados. A construção do Diagrama em Caixas exige que sejam calculados previamente os valores da Mediana, Quartil Inferior e Quartil Superior do conjunto de dados, bem como a identificação dos extremos superior (maior valor) e inferior (menor valor). Traçam-se dois retângulos (duas caixas): um representa a “distância” entre o Quartil Inferior e a Mediana e o outro a distância entre a Mediana e o Quartil Superior. A partir dos Quartis Inferior e Superior são desenhadas linhas verticais até os últimos valores não discrepantes tanto abaixo quanto acima. Valores discrepantes (ou “outliers”) são aqueles que têm valores: - maiores do que a expressão Qs + 1,5 x (Qs - Qi)1 ou - menores do que a expressão Qi - 1,5 x (Qs - Qi) Todos os valores discrepantes são marcados para posterior estudo individual. O Diagrama em Caixas “típico” seria: Figura 8.19 - Diagrama em Caixas - Esquema 1 O valor Qs - Qi é chamado de desvio interquartílico. Qs + 1,5x(Qs - Qi) Qi - 1,5x(Qs - Qi) Md Qs Qi * * * * Valores discrepantes superiores Valores discrepantes inferiores Na caixa superior estão 25% dos dados, há outros 25% na caixa inferior, outros 25% acima do Qs e outros 25% abaixo do Qi: se houvesse 100 dados 25 estariam na caixa superior, 25 na inferior, 25 abaixo do Qi e 25 acima do Qs. 44 Se as duas caixas tiverem “alturas” semelhantes (Qs - Md ≅ Md - Qi) a distribuição é dita simétrica (ver seção 2.4). Quanto maiores as “alturas” das caixas [maiores (Qs - Md ) e (Md - Qi)] maior a dispersão do conjunto. O valor “típico” do conjunto será a Mediana (Md), cujas características foram vistas anteriormente. A dimensão horizontal das caixas é irrelevante. A seguir o roteiro para construção do Diagrama em Caixas. Passos: Ordenar os dados. Calcular Mediana, Quartil Inferior e Quartil Superior. Identificar Extremos. Construir os retângulos (Qs - Md, Md - Qi). A partir dos retângulos, para cima e para baixo, seguem linhas até o último valor não discrepante. Marcar as observações discrepantes. Exemplo 2.22 - Foram medidas as alturas de 35 homens adultos, cujos resultados estão abaixo. Sejam as alturas de homens adultos a seguir. 181 174 145 150 168 173 163 184 178 165 173 165 166 205 167 168 169 170 174 170 172 198 177 173 179 180 169 181 169 183 142 183 163 204 165 Construa o diagrama em caixas para as alturas, avaliando valor típico, assimetria, dispersão e valores discrepantes. 1)Ordenar os dados crescentemente: 142 145 150 163 163 165 165 165 166 167 168 168 169 169 169 170 170 172 173 173 173 174 174 177 178 179 180 181 181 183 183 184 198 204 205 2) Calcular Mediana, Quartil Inferior e Quartil Superior Há 35 medidas: n = 35 Posição da mediana = (n + 1) /2 = 36 / 2 = 18a => valor que está na 18a posição Md = 172 45 Posição do quartil inferior = (n + 1) / 4 = 36 /4 = 9a => valor que está na 9a posição Qi = 166 Posição do quartil superior = 3 x (n + 1) / 4 = 3×36 /4 = 275a => valor que está na 27a posição Qs = 180 3) Identificar extremos O maior valor do conjunto (extremo superior) Es = 205 O menor valor do conjunto (extremo inferior) Ei = 142 4) “Retângulos” Qs - Md = 180 - 172 = 8 (os valores são aproximadamente iguais: distribuição Md - Qi = 172 - 166 = 6 pode ser considerada simétrica) 5) Identificação dos valores discrepantes Qs - Qi = 180 - 166 = 14 1,5 x (Qs - Qi) = 1,5 × 14 = 21 Qi - 1,5 x (Qs - Qi) = 166 - 21 = 145 Valores menores do que 145 cm de altura serão discrepantes: só há um valor abaixo de 145 (142), então há apenas um valor discrepante inferior. Assim a linha vertical inferior irá atéo último valor não discrepante, que vale 145 cm. Qs + 1,5 x (Qs - Qi) = 180 + 21 = 201 Valores maiores do que 201 cm de altura serão discrepantes: há dois valores acima de 201 (204 e 205), então há dois valores discrepantes superiores. A linha vertical superior irá até o último valor não discrepante, no caso 198. Todos os passos anteriores são feitos internamente pelo computador quando se usa um programa estatístico para construir um Diagrama em Caixas, resultando no gráfico a seguir2: 2 O Diagrama em Caixas foi feito utilizando o pacote Statistica. Algumas medidas podem ter resultados ligeiramente diferentes dos cálculos manuais devido aos arredondamentos. 46 Box Plot das Alturas 130 140 150 160 170 180 190 200 210 ALTURA Figura 9.20 - Diagrama em caixas O valor típico do conjunto é a mediana que vale 172 cm. Esse valor pode ser alto ou não, dependendo do objetivo (para selecionar jogadores de vôlei e basquete pode ser baixo, para jóqueis pode ser alto), exigindo conhecimentos mais aprofundados para ser interpretado. As duas caixas têm “alturas” semelhantes, indicando simetria ou "leve assimetria". Quanto à dispersão não há muito o que se comentar pois não há um padrão para comparação. Há apenas um valor discrepante inferior, e dois superiores. Estes valores talvez merecessem um estudo individual: primeiramente verificar se não houve erro de medição, se constatada a correção da medida identificar os indivíduos, estudar seu histórico médico, etc.)3. Como TODA ferramenta estatística o Diagrama em Caixas de nada vale se o usuário não tiver conhecimentos específicos sobre a variável retratada para interpretar os resultados. 3 Para que o estudo de pontos individuais seja possível é importante que sejam registrados onde, quando e em que condições as observações foram feitas. 47 2.5.1 - Diagrama em Caixas Múltiplo É bastante comum querer comparar vários conjuntos de dados, para avaliar seus valores típicos, dispersão, assimetria, e valores discrepantes. Por exemplo, no caso do Exemplo 2.22 poderíamos ter interesse em comparar vários conjuntos de alturas, provenientes de diferentes grupos. Para tanto precisamos construir um diagrama múltiplo, em que todos tenham a mesma escala, para possibilitar a comparação (diversos programas estatísticos permitem fazer isso). Exemplo 2.23 - O diagrama em caixas múltiplo abaixo apresenta as notas finais de estudantes de disciplinas de Estatística em três cursos diferentes da UFSC, em 1997. Faça a análise dos diagramas: valor típico, dispersão, assimetria, valores discrepantes. Algum dos cursos destaca-se? -1.2 0.0 1.2 2.4 3.6 4.8 6.0 7.2 8.4 9.6 Box-plot das notas TURMAS NO TA S Ciências Biológicas Engenharia Mecânica Engenharia de Produção Figura 2.21 - Diagrama em caixas múltiplo de notas por curso Quanto aos valores típicos (medianas) os três cursos são bem semelhantes: 6,5, 6,5 e 6,75. 48 Quanto à assimetria, apenas o conjunto da Engenharia de Produção apresenta simetria (as alturas das caixas são semelhantes), enquanto os outros dois são assimétricos. Quanto à dispersão, parece ser maior na Engenharia Mecânica, pois suas caixas são maiores (Quartis mais distantes da Mediana). Há valores discrepantes nos três conjuntos, mas apenas inferiores, 2 em Ciências Biológicas, 4 em Engenharia Mecânica e 3 em Engenharia de Produção. O curso de Engenharia Mecânica destaca-se ligeiramente, por apresentar Quartil Superior e Extremo Superior acima dos demais, mas não é uma grande diferença, e trata-se do curso com maior dispersão nas notas. Exemplo 2.24 - A ONU realizou uma pesquisa registrando os crescimentos demográficos e médias de calorias diárias ingeridas em vários países. Os países foram agrupados em seis regiões: OECD (EUA, Canadá, Austrália, Nova Zelândia e Europa Ocidental), África, América Latina, Oriente Médio, Europa Oriental, e Pacífico/Ásia. Os diagramas em caixa das variáveis estão abaixo. Faça a análise dos dois diagramas no que tange aos valores típicos, assimetria, dispersão e valores discrepantes. Qual é a sua opinião sobre a qualidade de vida nestas seis regiões? Figura 2.2210 - Diagramas em caixa múltiplos: crescimento demográfico e média diária de calorias ingeridas 49 Crescimento demográfico Valores típicos: Oriente Médio e África têm os maiores valores típicos, medianas de cerca de 3,0% ao ano. E os menores estão na Europa Oriental e OECD, próximos de zero. Assimetria: os conjuntos de África e Europa Oriental poderiam ser considerados simétricos, América Latina, OECD e Pacífico/Ásia ligeiramente assimétricos, e o Oriente Médio é assimétrico. Dispersão: o conjunto com maior dispersão é o Oriente Médio, e os menos dispersos são a Europa Oriental e OECD (demonstrando uma certa homogeneidade demográfica nestas duas regiões). Valores discrepantes: África e América Latina têm discrepantes inferiores, OECD tem um superior, e as demais regiões não apresentam valores discrepantes. Média de calorias Valores típicos: Europa Oriental e OECD têm os maiores valores, na faixa de 3500 calorias diárias, enquanto que a África têm o menor valor, por volta de 2200. Assimetria: todos os conjuntos são assimétricos, mas Oriente Médio, Pacífico/Ásia e Europa Oriental (onde Qs = Md) são mais do que os outros, a África tem a menor assimetria. Dispersão: Europa Oriental apresenta a menor dispersão ("caixas" menores), enquanto Pacífico/Ásia apresenta a maior. É interessante observar o contraste entre os dois diagramas: a África tem um dos maiores valores típicos de crescimento demográfico, e o menor valor típico de calorias ingeridas (indicando um cenário de miséria e fome), enquanto a Europa Oriental e a OECD têm uma situação inversa (o que indica condições sócio- econômicas mais favoráveis). Impressiona também a alta taxa de crescimento demográfico no Oriente Médio. 50 3 - ANÁLISE BIDIMENSIONAL É comum haver interesse em saber se duas variáveis quaisquer estão relacionadas, e o quanto estão relacionadas, seja na vida prática, seja em trabalhos de pesquisa, por exemplo: - se o sexo dos funcionários de uma empresa está relacionado com a função exercida; - o quanto o a temperatura ambiente em uma região influencia as vendas de refrigerante; - se o nível de escolaridade de um grupo de empreendedores está relacionado com o grau de sucesso por eles alcançado. Muitas vezes queremos verificar se há uma relação de causa e efeito entre as duas variáveis (se as variáveis são dependentes ou não), se é possível estudar uma das variáveis através da outra (que é mais fácil de medir)- prever os valores de uma através dos valores da outra, ou calcular uma medida de correlação ou de dependência entre as variáveis. A Análise Bidimensional4 propõe-se a tentar responder as perguntas do parágrafo anterior. As duas variáveis abordadas podem ser qualitativas ou quantitativas, e para cada tipo haverá técnicas apropriadas. Para variáveis qualitativas vamos estudar: tabelas de contingência, estatística Qui-Quadrado e o Coeficiente de Contingência Modificado5. Para variáveis quantitativas vamos abordar: diagramas de dispersão, análise de correlação, análise de regressão linear simples, coeficiente de determinação e análise de resíduos. As próximas seções tratarão de cada tópico. 4 Se mais de duas variáveis estiverem envolvidas será necessário empregar técnicas
Compartilhar