Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Federal da Bahia Instituto de Matemática Departamento de Estatística Notas de Aula Disciplina MATD39 ANÁLISE DESCRTIVA E EXPLORATÓRIA DE DADOS A Professora: Lia Terezinha L. P. de Moraes Agosto de 2011 UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 1 UFBA – Instituto de Matemática Departamento de Estatística MATD39 – Análise Descritiva e Exploratória de Dados A Prof a Lia Terezinha L. P. Moraes Agosto de 2011 Unidade I Introdução: A Estatística Descritiva Clássica As disciplinas Estatística Básica A e Estatística Básica B, disciplinas do primeiro e segundo semestres, respectivamente, da grade curricular do Curso de Bacharelado em Estatística visam dotar os alunos de conhecimentos analíticos básicos que permitirão ao estudante ter uma visão geral da Estatística enquanto método de análise dos dados. Ao longo deste Curso essas técnicas e muitas outras serão estudadas com maior rigor matemático e aprofundadas. Esta disciplina, MATD39 – Análise Descritiva e Exploratória de Dados A, tem por objetivo complementar e aprofundar os conceitos apresentados na unidade referente à Estatística Descritiva. Seu conteúdo contempla o estudo dos diversos tipos de médias, das medidas de dispersão e dos momentos (medidas importantes para o estudo descritivo da assimetria e da curtose de uma distribuição de dados). Em relação ainda às técnicas descritivas, será visto como são utilizadas funções matemáticas para descrever o comportamento de certos conjuntos de dados, denominado ajustamento estatístico, e a construção de indicadores que servem como medidas resumo de fenômenos. 1. Resumo histórico da Estatística Clássica1 Como disciplina científica, a Estatística se estruturou no século passado, mas já era conhecida e aplicada em forma rudimentar desde a Antiguidade. A configuração atual da Estatística significa a culminância de um processo em que se podem distinguir, como primordiais, quatro antecedentes que se desenvolveram de forma independente e a seguir confluíram, mediante a obra de LAPLACE e seus continuadores, para um só corpo de doutrina e uma metodologia. Em seguida, referir-nos-emos a estes quatro antecedentes, apresentando- os na ordem cronológica que lhes corresponde: 1 Texto reproduzido de TORANZOS, Fausto I. Estatística. Ed. Mestre Jou, São Paulo, 1969. p. 1 - 4. UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 2 1) Nas antigas civilizações já se realizavam levantamentos estatísticos de caráter rudimentar. No Egito, devido às inundações do Nilo, anualmente se efetuavam trabalhos cadastrais e censitários, que permitiam conhecer a repartição da propriedade e dos bens, a fim de que fossem restituídos após as inundações. A Bíblia refere-se a censos sobre o povo hebreu. Também se sabe que os gregos realizavam censos demográficos e da propriedade. Na época do Império Romano foi necessário realizar, de forma periódica e sistemática, censos de bens e de pessoas dos povos submetidos ao Império, com vistas à aplicação do regime de impostos. Na época moderna a técnica censitária adquiriu grande desenvolvimento, chegando a constituir-se em eficaz auxiliar das tarefas dos governos, particularmente na Alemanha, onde já no século XVIII era ensinada nas universidades. Um dos professores da Universidade de Gotinga, ACHENWALL (1719 - 1772), ao que parece, foi quem introduziu a palavra “estatística”, atribuindo a este vocabulário o seguinte significado: “Ciência das coisas que pertencem ao Estado, chamando Estado a tudo que constitui uma sociedade civil e ao país em que ela habita, com tudo quanto se encontra de ativo e efetivo; a Estatística ocupa-se dos fenômenos que podem favorecer ou defender a prosperidade do Estado”, e acrescenta: “a política ensina como devem ser os Estados, a Estatística explica como o são realmente”. Esta definição condensa o pensamento da corrente conhecida com o nome de “Estatística universitária”, caracterizada por considerar a Estatística como método descritivo, que consiste na recontagem de dados, e criada para servir às necessidades dos Estados. 2) O segundo antecedente histórico encontra-se em meados do século XVII. Os estudos estatísticos receberam uma contribuição de suma importância, que se pode considerar como ponto de partida da atual estruturação da Estatística como método de investigação dos fenômenos coletivos. Referimo-nos aos trabalhos realizados por John GRAUNT (1620 - 1674), vendedor de tecidos de Londres, homem de modesto preparo, mas dotado de grande inteligência, graças a qual pôde realizar trabalhos que lhe valeram a honra de ser incorporado como membro da Sociedade Real. GRAUNT, utilizando dados demográficos (nascimentos, mortes, casamentos, etc.) reunidos nas paróquias de Londres, conseguiu realizar estudos que lhe permitiram descobrir, por inferências, relações e leis demográficas de validez permanente, chegando, inclusive, a estimar com boa aproximação, por via indireta, a população de Londres e de outras cidades inglesas. A importância destes estudos enraíza-se no estabelecimento da possibilidade de obter leis que rejam o comportamento de populações numerosas, em face de atributos tais como os demográficos, econômicos e sociais. Nos trabalhos de GRAUNT já se insinua o que haveria de constituir o fundamento dos métodos atuais de inferência, que deram à Estatística possibilidade de estudar os fenômenos coletivos, e que constituem o capítulo mais interessante dessa disciplina e um dos métodos de investigação mais patentes com que conta o moderno investigador das ciências humanas e também das físico-naturais. GRAUNT é, portanto, o verdadeiro precursor da Estatística de nossos tempos. Numerosos discípulos continuaram a obra de GRAUNT, devendo citar-se particularmente William PETTY (1627 - 1687) e SÜSMILCH (1707 - 1767). O primeiro foi, na Inglaterra, o continuador da obra de GRAUNT; em sua principal obra, Aritmética política, deu numerosas aplicações do método de GRAUNT, contribuindo para difundi-lo na Inglaterra. SÜSMILCH, sacerdote alemão, também foi admirador e continuador de GRAUNT; escreveu a obra intitulada Ordem divina, na qual tratava de dar explicação mística do método estatístico de GRAUNT, efetuando ao mesmo tempo interessantes contribuições matemáticas para o UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 3 método e colaborando de forma muito eficaz para o conhecimento e difusão desse método no continente europeu. Sintetizando, diremos que a obra de GRAUNT, e seus continuadores, constituiu o verdadeiro ponto de partida da orientação da Estatística como método de investigação dos fenômenos de massa. 3) Paralelamente ao desenvolvimento da Estatística, como disciplina científica, mas de forma independente, desenvolveu-se, a partir do século XVII, o Cálculo da Probabilidades. Seus iniciadores são os matemáticos italianos e franceses desse século, particularmente FERMAT e PASCAL, que iniciaram os estudos do Cálculo das probabilidades, tratando de resolver problemas de jogos de azar propostos pelo cavaleiro de MÉRÉ. Pouco a pouco outros matemáticos, e posteriormente os do século XVIII, foram interessando-sepor este tipo de estudos e ampliando os resultados, até que Tiago BERNOULLI (1654 - 1705) obteve o teorema que se conhece com seu nome e que permitiu estruturar o Cálculo das Probabilidades como disciplina orgânica. Pelos fins do século XVIII e princípios do XIX, os trabalhos de LAPLACE permitiram dar sua estruturação definitiva ao Cálculo das Probabilidades; em suas obras Teoria analítica da probabilidade (1818) e Ensaio filosófico sobre as probabilidades (1814) completou a obra de BERNOULLI e seus continuadores, provendo o Cálculo das Probabilidades de recursos matemáticos que haveriam de levá-lo, mediante a obra do próprio LAPLACE e de outros matemáticos como POISSON, GAUSS, etc., a um grau de aperfeiçoamento que o tornou apto para as aplicações a diversos campos da ciência e muito especialmente à Estatística. A partir de LAPLACE, as duas disciplinas, Cálculo das Probabilidades e Estatística, que até então haviam permanecido separadas, fundiram-se de maneira que o Cálculo das Probabilidades constitui a arcabouço matemático da Estatística, pela qual esta pôde tomar o impulso teórico que haveria de levá-la ao extraordinário desenvolvimento e aperfeiçoamento que alcançou no século passado e no presente. O impulso que levou ao atual estado de desenvolvimento do Cálculo das Probabilidades, produzido entre fins do século passado e princípios do presente, deve-se principalmente a franceses, russos e norte-americanos, com a colaboração de alemães, escandinavos, ingleses, italianos, etc. 4) Juntamente com o Cálculo das Probabilidades e a ele ligado, desenvolveu-se a Teoria dos Erros, especialmente por obra de GAUSS, BESSEL e do próprio LAPLACE, que chegaram a estabelecer o método dos mínimos quadrados como processo matemático para resolver o problema fundamental da Teoria dos Erros. O desenvolvimento da Teoria dos Erros é um valioso antecedente da Estatística, pelo fato de suas conclusões e métodos servirem de modelo aos trabalhos que posteriormente realizaram QUETELET e outros estatísticos do século passado. Diremos, mais propriamente, que a Teoria dos Erros constitui o primeiro ramo da Estatística que pôde constituir-se com estruturação teórico-matemática. A partir da obra de LAPLACE e GAUSS, a Estatística adquiriu, pelos meados do século passado, um grande impulso, por obra de vários criadores, entre os quais merece especial menção Adolfo QUETELET, astrônomo belga que trabalhou durante muitos anos realizando notáveis aplicações estatísticas, e com ela abriu, para esta disciplina, um vasto campo de possibilidades, tanto em questões sociais, demográficas e econômicas, como em ciências biológicas, questões climáticas, antropológicas, etc. UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 4 Em todas elas QUETELET realizou notáveis aplicações, levando a Estatística a constituir-se em método de investigação dos fenômenos coletivos e em valioso auxiliar nos problemas do governo, sejam econômicos, sanitários, demográficos, etc. Entre as numerosas obras de QUETELET merece citação Sur l’homme (1835). Nesta época a Estatística se circunscrevia ao capítulo que hoje conhecemos como séries de freqüências, e dentro desse capítulo se utilizavam unicamente as aproximações mediante a função normal de GAUSS. LEXIS, estatístico alemão de fins do século passado, ampliou os estudos de QUETELET, provando que não era somente a curva normal que podia servir de modelo a uma série de freqüências. Esta corrente de idéias se desenvolveu e completou depois pelos trabalhos de numerosos investigadores, dentre os quais cabe salientar PEARSON e CHARLIER. Iniciados pela escola de estatísticos ingleses e depois continuados em outros países, desenvolveram-se entre os últimos anos do século passado e os que já decorrem do presente, os modernos setores da Estatística e, justamente com a teoria, as aplicações, daí resultando que esta disciplina chegasse a constituir-se em um dos mais potentes métodos de investigação, tanto nas ciências sociais como nas físico-naturais. Os capítulos mais importantes da Estatística moderna são, além dos já citados das séries de freqüências, a teoria da correlação e regressão, a teoria das amostras e a teoria das séries do tempo e dos processos estocásticos. Estas teorias tiveram início nos trabalhos da escola estatística inglesa, devendo citar-se, especialmente dentro dela, os nomes de GALTON, PEARSON e R. A. FISHER, cujos trabalhos marcam o ponto de partida das correntes de investigação que levaram a Estatística ao alto grau de desenvolvimento em que hoje se encontra. Os três atuaram sucessivamente; GALTON criou, entre outras teorias, a de regressão, que com a de correlação, desenvolvida por PEARSON, constituem um dos mais fecundos capítulos nas aplicações da Estatística. Nos últimos anos do século passado, e mais intensamente nos primeiros do presente, apareceram os trabalhos de PEARSON, que configuram uma obra variada e muito extensa, deixando estampado o selo da genialidade em todos os capítulos da Estatística, aperfeiçoando teorias existentes e contribuindo com numerosas criações, entre as quais citaremos, por sua importância, o sistema de curvas que leva seu nome, para o estudo das séries de freqüências; a contribuição capital que constitui sua teoria sobre provas de significância e outras contribuições que serviram para configurar a estrutura da teoria das amostras, teoria que se estruturou a partir de seus trabalhos e dos seus discípulos. No decurso do século XX, a obra de Karl PEARSON teve destacados continuadores, dentre os quais sobressai Ronald A. FISHER, seguramente a figura mais proeminente da Estatística de todos os tempos. Em 1950, ao completar 60 anos, tributou-se-lhe a homenagem de reunir seus trabalhos originais em um livro; examinando esta obra podemos avaliar a fecundidade de sua criação. Para ressaltar o ponto fundamental de sua obra diremos que se PEARSON foi o iniciador da teoria da inferência estatística, foi FISHER quem a desenvolveu e estruturou em forma rigorosa, com a colaboração de seus discípulos; em particular a teoria das pequenas amostras e da estimativa adquiriram, com FISHER, a estruturação com a qual as conhecemos no presente. Ao redor dos três nomes citados, numerosos discípulos na Inglaterra e outros países têm trazido importantes colaborações, especialmente nos Estados Unidos, na Suécia, na França, na Rússia e na Alemanha. Chegou-se, assim, ao estado atual: m todas as nações cientificamente desenvolvidas se trabalha intensamente em investigações teóricas e de UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 5 aplicação; todos os capítulos da Estatística se renovam e ampliam diariamente, enquanto ao mesmo tempo se aperfeiçoam seus processos de aplicação em diversos campos do conhecimento. 2. Sentido do termo Estatística2 Não tentaremos definir Estatística, porque os conceitos fundamentais não têm definição explícita ou, se a têm, não é suficientemente clara para nos dar idéia acabada de seu significado. Por isso trataremos apresentar uma caracterização conceitual sucinta, que situe o leitor, embora em forma aproximada, no panorama amplo e fecundo que nossa disciplina apresenta. O objeto dos estudos estatísticos está nos fenômenos que se referem a populações numerosas, formada por indivíduos semelhantes com respeito a um atributo. Por populações entendemos um conjunto qualquer de objetos, pessoas ou acontecimentos. Verifica-se amiúde, que se desejamos estudar o comportamentode populações numerosas, a respeito de uma propriedade ou característica, os métodos deterministas são inaplicáveis em face da extrema complexidade do fenômeno, pelo que se costuma dizer que este se acha regido ou influído pelo acaso. É então quando a Estatística, apoiada no Cálculo das Probabilidades, se faz presente, e mediante um esforço de síntese, que é característico de seus métodos, introduz estudos referentes ao comportamento médio do indivíduo, logrando, dessa forma, superar a indeterminação que se manifesta nos casos particulares. Desta forma, a Estatística e o Cálculo das Probabilidades chegaram a se constituir no caminho eficaz para investigar o comportamento dos fenômenos de massa. A esse respeito diz DARMOIS: “A Estatística tende a recolher, caracterizar numericamente e coordenar grupos de fatos, grupos geralmente numerosos, fatos geralmente complexos”. 3. O conhecimento estatístico3 - Estatística descritiva e estatística indutiva O método tradicional das ciências físico-naturais nos apresenta a lei científica como uma relação entre os fenômenos, concebida dentro do esquema determinista causal, que se baseia num encadeamento em que a relação causa-efeito pressupõe nexos definidos em forma unívoca e imutável. Este método deu resultados muito interessantes, permitindo que a ciência chegasse ao estado em que se conheceu no século passado. Não obstante, muitos fenômenos que se referem ao comportamento de populações numerosas não são suscetíveis de tratamento por este método; ao contrário, manifestam-se insubmissos a leis sistemáticas ou, em outras palavras, estão regidos ou influídos pelo acaso; são fenômenos aleatórios. O característico dos fenômenos aleatórios é que, em situações idênticas, é possível obter-se comportamentos diversos dos indivíduos, ao contrário do princípio determinista, que exige idênticos resultados como conseqüência de situações iguais. Nesse momento se fazem presentes os métodos probabilísticos ou estocásticos, que não buscam a lei do comportamento dos indivíduos, senão no que corresponde ao termo médio de uma grande massa de indivíduos, e ali encontram leis 2Texto reproduzido de: TORANZOS, Fausto I. Estatística. Ed. Mestre Jou, São Paulo, 1969. p. 5. 3Texto reproduzido de: TORANZOS, Fausto I. Estatística. Ed. Mestre Jou, São Paulo, 1969. p. 5. UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 6 estáveis, que podem constituir a base de uma estruturação científica mais ampla que a determinista causal. Os métodos de FERMAT, PASCAL e seus continuadores aplicavam aos jogos de azar e os procedimentos análogos aos que usava J. GRAUNT na demografia, e mais tarde LAPLACE, QUETELET e outros estatísticos, haveriam de proporcionar o caminho para encarar problemas ante os quais a metodologia clássica se sentia importante. A importância dos métodos capazes de estudar fenômenos aleatórios se fez patente na Física com BOLTZMAN, na Biologia com GALTON e PEARSON, e na Economia com COURNOT, e assim foi, aos poucos, abrangendo os mais diversos campos do conhecimento. Sua eficácia se manifesta toda a vez que se trata de populações numerosas. O método estatístico, em seu aspecto inicial, consiste em recolher dados, geralmente em grande número, referentes ao comportamento dos indivíduos da população, a respeito do fenômeno que se estuda. Esses dados, convenientemente classificados e tabulados, servem de base para a elaboração matemática, que conduz à obtenção de resultados e leis que expressam modalidades características do comportamento médio da população. A Estatística atinge, assim, seu primeiro objetivo: descrever. Amiúde isso não basta, e se torna necessário pensar em predizer o comportamento médio de uma população no futuro, apoiando-se no conhecimento do presente e do passado; este problema é mais difícil, contudo em sua solução tem-se obtido importantes resultados por via inferencial; é a predição estatística. O desenvolvimento da ciência, no período clássico, tem como procedimento a indução, que é um princípio de economia de esforços, porque da observação de fenômenos particulares se chega ao estabelecimento de resultados gerais. Também nos métodos estatísticos encontramos procedimentos similares à indução, que constituem a teoria das amostras, conjunto de técnicas que, por via inferencial, permite estabelecer resultados válidos para populações numerosas, partindo de observações do comportamento de uma pequena parte da população, chamada amostra, que sob certas condições se torna representativa de toda a população. O aperfeiçoamento da metodologia estatística trouxe, juntamente, a ampliação do campo de suas aplicações; dessa forma, ao domínio dos métodos estatísticos se foram incorporando capítulos da Física, da Astronomia, da Química, da Biologia, da Psicologia, da Pedagogia; métodos racionais de cultivos, de genética e muitas outras questões agronômicas; setores de experimentação médica, numerosas aplicações nas ciências sociais e, muito especialmente, na Economia, na atividade industrial e no trabalho governamental.4 A rápida enunciação feita no parágrafo anterior dá uma idéia da importância que adquiriram em nossos dias a Estatística e o Cálculo das Probabilidades, como modalidades do pensamento científico, pela eficácia dos resultados e a amplitude de suas possibilidades. 4Até na Literatura a Estatística tem apresentado uma situação destacada. Curiosos trabalhos estatísticos, estudando a extensão dos períodos, as coincidências, as pontuações e o estilo, permitiram identificar de forma insofismável KEMPIS, e não GERSON, como autor da “Imitação de Cristo”. (Informação extraída de VIVEIROS DE CASTRO, Lauro Sodré. Pontos de Estatística. Ed. Didática e Científica, Rio de Janeiro, 18a. Edição. p. 19) UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 7 4. Noções de cálculos com somatórios Objetivo: Facilitar a indicação e a formulação de medidas estatísticas. Notação: = letra grega "sigma" maiúsculo e lê-se "Somatório de" ou "Soma de". Exemplo: Seja o conjunto X = { 5, 2, 12, 18, 8 } Fazendo 8 ;18 ;12 ;2 ;5 54321 xxxxx , podemos escrever o conjunto X da seguinte forma: X x x x x x { , , , , }1 2 3 4 5 e chamaremos de xi um elemento qualquer do conjunto. O índice "i" corresponde a ordem do elemento no conjunto. Para calcularmos a soma dos elementos do conjunto X, utilizamos a seguinte representação: 45818122554321 5 1 xxxxxx i i . Generalizando, para um conjunto qualquer de n elementos, tem-se n n i i xxxx ...21 1 e lê-se o símbolo da seguinte forma: "somatório de xi, para i variando de 1 até n". Exercícios: 1) Um estudo sobre 10 microempresas apurou os seguintes valores sobre o número de empregados: 5 - 2 - 4 - 3 - 7 - 2 - 5 - 3 - 8 - 1. Calcule5: a) xi i 1 10 ; b) xi i 1 5 ; c) xi i 6 9 ; d) xi i 2 3 5 ; e) xi i 1 10 10 ; f) ( )xi i 4 1 10 ; g) xi i 3 5 2 ; h) xi i 21 5 2) Reescreva as expressões abaixo utilizando o operador somatório6: a) x x xn1 2 ... ; b) x x xn1 3 2 3 3 ... ; c) x x x n n 1 2 2 ... ; d) ( ) ( ) ... ( )x x x1 2 73 3 3 ; e) ( ) ( ) ... ( )x k x k x k5 2 3 6 2 3 10 2 3 5 Respostas: a) 40; b) 21; c) 18; d) 74; e) 4; f) 0; g) 196; h) 21/2. 6 Respostas: a) n i ix 1 ; b) n i ix 1 3 ; c) n i i i x 1 ; d) 7 1 )3( i ix ; e) 10 5 32 )( i i kx UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 8 4.1. Propriedade dos somatórios 1ª) A soma de uma constante sobre n termos é igual a n vezes a constante. Isto é, seja a uma constante qualquer, tem-se: a a a a n a i n ... . 1 2ª) Se cada elemento de uma série for multiplicado por uma constante a, os elementos podem ser somados e a soma fica multiplicada por essa constante. Isto é, a x a xi i n i i n . . 1 1 . Verificação: a x ax ax ax a x x x a xi i n n n i i n . ... ( ... ) . 1 1 2 1 2 1 3ª) Propriedade distributiva: o somatório da soma (ou diferença) é igual à soma (ou diferença) de somatórios. Tem-se: ( )x y x yi i i n i i n i i n 1 1 1 Verificação apenas para o caso da soma: ( ) ( ) ( ) ... ( ) ( ... ) ( ... )x y x y x y x y x x x y y y x yi i i n n n n n i i n i i n 1 1 1 2 2 1 2 1 2 1 1 Exercício: Faça a verificação para o caso da diferença. 4ª) O quadrado de uma soma é diferente da soma dos quadrados. Ou seja: x xi i n i i n 1 2 2 1 Para facilitar a compreensão, será suposto que n = 3. Ao desenvolver o lado esquerdo da expressão, tem-se: x x x x x x x x x x x x x x x x x x xi i 1 3 2 1 2 3 2 1 2 1 2 1 3 2 1 2 2 2 3 3 1 3 2 3 2( ) ( )x x x x x x x x x x x xi i i j i j i 1 2 2 2 3 2 1 2 1 3 2 3 2 1 3 1 3 2 2 2 2 UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 9 É possível observar que foi adicionado a parcela dos produtos cruzados 3 1 2 ji i jixx à soma dos quadrados (lado direito da expressão) para que o resultado se iguale a xi i n 1 2 , mostrando portanto que os dois lados da expressão são diferentes. 5ª) O produto de duas somas é diferente da soma dos produtos. Ou seja: x y x yi i n i i n i i i n 1 1 1 . . Supõe-se novamente que n = 3 e ao desenvolver o lado esquerdo da expressão, tem-se: x y x x x y y yi i i i 1 3 1 3 1 2 3 1 2 3. ( )( ) x y x y x y x y x y x y x y x y x y1 1 1 2 1 3 2 1 2 2 2 3 3 1 3 2 3 3 ( )x y x y x y x y x y x y x y x y x y1 1 2 2 3 3 1 2 1 3 2 1 2 3 3 1 3 2 x y x yi i i j i j i i 1 3 1 3 Verifica-se, portanto, que para que o lado direito da expressão se iguale ao lado esquerdo é necessário adicionarmos a parcela x yi j i j i 1 3 , mostrando a diferença entre os dois membros da expressão. 6ª) Sejam i a n e k, onde k representa o número de parcelas do somatório. Tem-se que k = n - a + 1 7ª) Duplos somatórios: x y x yi j j m i i n j j m i n . . 1 1 11 Para verificar a igualdade anterior, admitiremos que n = 2 e m = 3, visando facilitar os cálculos. Ao desenvolver o lado esquerdo da expressão, tem-se: x y x y x y x y x y x y x yi j j m i n . 1 1 1 1 1 2 2 1 2 2 3 1 3 2 ( ). ( ). ( ).( )x x x y x x x y x x x y y1 2 3 1 1 2 3 2 1 2 3 1 2 2 1 3 1 . j j i i yx UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 10 Unidade II Desenvolvimento teórico das médias e suas propriedades Nesta unidade são apresentadas as definições dos diversos tipos de médias, suas propriedades e aplicações. 1. Média aritmética Notação: Se o conjunto de dados for representado pela letra X, a média aritmética será denotada por X (lê-se "X barra"). 1.1. Definições Média aritmética simples Sejam nxxx ,...,, 21 , n valores que a variável X pode assumir. A média aritmética simples de X é definida como n x X n i i 1 ou, de forma mais simplificada, por n x X . Esta definição é útil quando o conjunto de dados não está classificado, isto é, para dados brutos ou organizados em rol. Exercícios: a) Um estudante obteve em três verificações de aprendizagem as seguintes notas: 7,2 - 4,8 - 6,6. Calcule a média aritmética das notas. Resolução: 2,6 3 6,68,42,7 n x X b) Em certa família de 5 pessoas todas têm renda mensal. O pai ganha R$2300,00, a mãe R$1000,00, o filho mais velho R$ 800,00 e cada um dos demais filhos R$400,00. Qual a renda média per capita nessa família? Resolução: 980 5 40040080010002300 n x X c) Segundo o Censo Demográfico de 2010, realizado pelo IBGE, a média de moradores em domicílios particulares ocupados em 2010 era de 3,3 pessoas. Como foi calculado esse indicador? Tem sentido estatístico dizer que as famílias tem em média 3 pessoas mais três décimos de pessoa? UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 11 Média aritmética ponderada Esta medida é utilizada quando atribuímos um peso (ou ponderação) aos valores possíveis da variável. Sejam x x xk1 2, ,..., k valores que a variável X assume e w1, w2, ..., wk os respectivos pesos (ou ponderadores). A média aritmética ponderada é definida como k i i k i ii w wx X 1 1 . ou, simplificadamente, por w wx X . . Observações: i) No caso de variáveis organizadas em tabelas de frequências, as frequências absolutas (ni) ou frequências relativas n n f ii correspondem ao peso de cada valor da variável. Tem- se, respectivamente, as expressões k i i k i ii n nx X 1 1 . e k i ii fxX 1 . , pois 1 1 k i if . ii) Quando se trabalha com distribuição de frequências por classes de valores, usa-se o ponto médio da classe ou, se for conhecida, a média da classe para a variável, como o valor representativo desta. Ou seja, o xi da fórmula será substituído pelo ponto médio ou pela média da classe. Exercícios: a) Se um aluno obteve na disciplina de Estatística, em três verificações mensais de aprendizagem, a nota média de 6,2 e na prova final alcançou a nota 7,5, calcule o conceito final nessa disciplina atribuindo peso 6 à média mensal e peso 4 à prova final. Resolução: 72,6 10 2,67 10 302,37 46 )45,7()62,6(. w wx X = conceito final. b) Com a distribuição de frequências das alturas declaradas de 34 pessoas foi organizada em classes de valores. Calcule a estatura média. Classes de alturas (em centímetros) Número de pessoas (freq. absoluta – ni) Ponto médio (xi) Cálculos (xi.ni) 155 |— 160 2 157,5 315,0 160 |— 165 7 162,5 1.137,5 165 |— 170 2 167,5 335,0 170 |— 175 11 172,5 1.897,5 175 |— 180 4 177,5 710,0 180 |— 1856 182,5 1.095,0 185 |— 190 2 187,5 375,0 Total 34 .. 5.865,0 UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 12 Resolução: 5,172 34 865.5. n nx X cm. c) O número de membros na família dos funcionários de certa empresa foi organizado na tabela de frequências a seguir. Calcule o número médio de membros na família nessa empresa. Número de membros na família (xi) Número de funcionários (freq. absoluta - ni) Cálculos (xi.ni) 1 1 1 2 1 2 3 1 3 4 9 36 5 11 55 6 7 42 7 1 7 8 3 24 10 1 10 12 1 12 Total 36 192 Resolução: Considerando as freqüências relativas como os pesos correspondentes aos diversos tamanhos de família e utilizando a terceira coluna da tabela para realizar os cálculos, tem-se: 11317119111 )112()110()38()17()76()115()94()13()12()11(. n nx X 33,5 36 192 36 1210247425536321 pessoas. d) A tabela abaixo mostra a distribuição de frequências do número de filhos dos funcionários de certa empresa. Calcule o número médio de filhos. Número de filhos (xi) Proporção de funcionários (fi) Cálculos (xi fi) 0 0,05 0,00 1 0,15 0,15 2 0,45 0,90 3 0,20 0,60 4 0,15 0,60 Total 1,00 2,25 Resolução: 25,2. 5 1 i ii fxX filhos. e) Sejam ni = frequências simples absolutas, n = frequência total e n n f ii = frequências simples relativas, mostre que k i iik i i k i ii fx n nx X 1 1 1 . . . UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 13 1.2. Interpretação da média aritmética Se um conjunto de dados representa um sistema de forças, a média aritmética corresponde à abscissa do centro de gravidade desse sistema formado pelos pontos x x xk1 2, ,..., com massas kwww ,...,, 21 , respectivamente. A interpretação é análoga para dados não classificados (rol), sendo as massas neste caso unitárias. Para ilustrar este conceito, foi elaborado o histograma correspondente ao exemplo das alturas (exercício ―b‖ anterior). Verifica-se que o centro de gravidade da distribuição, representado pela letra G, tem como abscissa a média da distribuição (172,5 cm). 155 160 165 170 175 180 185 190 0 1 2 Altura (em centímetros) Densidade de freqüência Distribuição de freqüências da altura dos calouros do Curso de Estatística da UFBA - 1995 Média = 172,5 G Essa é uma das razões para a média aritmética ser a principal medida de tendência central. Existem outras razões que fazem com que seja a medida de posição mais recomendada. São elas: É definida rigorosamente e pode ser interpretada sem ambiguidades; Leva em consideração todas as observações efetuadas; Calcula-se com facilidade; e Outras vantagens da utilização da média aritmética com medida de tendência central só poderão ser compreendidas quando do estudo da Teoria da Estimação. Entretanto essa medida apresenta um importante inconveniente que é o fato de ser muito sensível a valores extremos, isto é, valores excessivamente pequenos ou excessivamente alto, em relação às demais observações do conjunto de dados, que afetam a média aritmética. Exemplo: Salário em junho o conjunto dos salários de 8 funcionários de uma pequena empresa era, em reais: {510; 510; 560; 570; 620; 730; 750; 810} Média salarial em junho: R$632,50 Em julho o funcionário mais antigo e com maior salário foi promovido à gerente geral e passou a receber por mês R$3500,00 e os demais não tiveram quaisquer mudanças no salário {510; 510; 560; 570; 620; 730; 750; 3500} Média salarial em julho: R$968,75 Por que ocorreu o aumento tão grande na média salarial? Devido ao fato do novo salário estar muito distante da maioria dos salários do novo conjunto e, desta forma, ―puxa‖ para cima o valor médio. Distribuição de freqüências das alturas (exercício “b” página 11) UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 14 1.3. Propriedades da média aritmética 1ª) A soma algébrica dos desvios (ou diferenças) de cada elemento de um conjunto de números em relação à média aritmética é zero. Demonstração: a) Para dados não-agrupados: Se di representa os desvios em relação à média, então 0 1 n i id . Sejam o conjunto X = {x1; x2; ...; xi;...; xn} e X = média do conjunto X. Como os desvios são definidos como Xxd ii , tem-se n i n i i n i n i ii n i i XnxXxXxd 1 1111 )( . Como n x X n i i 1 Xnx n i i 1 , então 0 1 XnXnd n i i . b) Para dados agrupados em distribuição de frequências, tem-se 0. 1 k i ii nd . Sejam o conjunto X = {x1; x2; ...; xi;...; xk}, que representa os k valores da variável X, suas respectivas freqüências absolutas {n1; n2; ...; ni;...; nk} e X = média do conjunto X. De maneira análoga à demonstração para a média aritmética simples, tem-se: iiiiiiii k i ii nXnxnXnxnXxnd ...)(. 1 .Sabe-se que nn k i i 1 e k i i k i ii n nx X 1 1 . XnnXnx i k i ii ... 1 . Então, 0... 1 XnXnnd k i ii . 2ª) A soma do quadrado dos desvios de cada elemento de um conjunto de números tomados em relação à média aritmética é um valor mínimo. Demonstração: Sejam o conjunto X = {x1; x2; ...; xi;...; xn} e X = média do conjunto X. Seja, ainda, x0 um valor arbitrário qualquer de modo que x0 X . Para dados não agrupados, tem-se que, pela própria propriedade: n i i n i i xxXx 1 2 0 1 2 )()( . Se S1 = soma do quadrado dos desvios tomados em relação à média aritmética e por S2 = soma do quadrado dos desvios tomados em relação a x0. Ao desenvolver separadamente os dois membros da desigualdade acima, tem-se: 222222 1 2 1 22)2()( XnxXxXxXxXXxxXxS iiiiii n i i Mas, Xnx n i i 1 , então 2 2 22 2 1 2 XnxXnXnxS ii . 2 00 22 00 22 00 2 1 2 02 22)2()( nxXnxxnxxxxxxxxxxS iiiii n i i . UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 15 Ao comparar as somas anteriores, existem três situações possíveis: .0 ;0 0 12 12 ;12 12 SS SS SS SS Assim, calculando a diferença entre as duas somas, tem-se: 222202200212 22 iioii xxXxXxnXnxnxXnxxSS 202020 2 XxnXXxxn No resultado acima 020 Xxn porque n > 0 e 0 2 0 Xx sempre, para quaisquer valores de x 0 X . Logo 020 Xxn . Assim, 2 012 XxnSS é sempre positiva para todo x0 X , logo S2 > S1. Exercício: Faça a demonstração para um conjunto com dados agrupados. 3ª) Seja um conjunto de números X ordenado com n valores. Se n1 números têm média 1X , n2 números têm média 2X , ..., nk números têm média kX , a média global é dada por: k j j k j jj k kk n nX nnn nXnXnX X 1 1 21 2211 . ... ...... Demonstração: Supondo que o conjunto X de n valores não agrupados esteja dividido emk subconjuntos e indicando por nj o tamanho de cada subconjunto, de modo que nnnn k ...21 e, ainda, por jX (j = 1, 2, ..., k) seja a média aritmética de cada um desses subconjuntos, pode-se escrever: 1 1 1 1 1 n x X n i i ; 2 1 2 2 2 n x X n i i ; ... ; k n i ki k n x X k 1 ; e k j jnn 1 . Pela definição de média aritmética (n observações) e ao desenvolver a expressão: k k n i ki k n i i n i i k n i ki n i i n i i nnn n x n n x n n x n nnn xxx n x X k k ... ...... ... ... 21 1 2 1 2 2 1 1 1 1 21 11 2 1 1 21 21 k j j k j jj k kk n Xn nnn XnXnXn 1 1 21 2211 . ... ... UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 16 Exemplo: A tabela abaixo fornece o número de propriedades agrícolas, por classes de tamanho, e o tamanho médio das propriedades na classe. Calcule a média aritmética global para todos os estabelecimentos. Classes de tamanho (em hectares) Número de propriedades (nj) Tamanho médio das propriedades ( jX ) Cálculos (nj. jX ) 50 ou menos 40 22 880 50 —| 100 50 78 3.900 100 —| 150 35 125 4.375 150 —| 200 25 184 4.600 200 —| 400 15 302 4.530 400 —| 600 10 408 4.080 mais de 600 5 905 4.525 Total 180 .. 26.890 Resolução: ha 39,149 180 890.26 . 1 1 k j j k j jj n nX X Observação: Sabe-se que não é possível calcular a média aritmética quando existem classes abertas na distribuiçao de frequências por classe, como no exemplo anterior. Sabe-se, também que ao calcular a média aritumética pelos pontos médios das classes está sendo introduzido um erro no valor da média porque os pontos médios em geral diferem das verdadeiras médias de cada classe. Embora no exemplo acima a primeira e última classes apresentem intervalos abertos, calculou-se a verdadeira média aritmética global, pois são conhecidas as médias aritméticas de cada classe. Esta forma de apresentação, com intervalos abertos, é comum nos Censos Demográficos e Agropecuários do IBGE. Como são divulgadas as médias das classes nestas pesquisas, é possível determinar as medidas estatísticas sem incorrer em erros. 4ª) Somando-se (ou subtraindo-se) um valor constante e arbitrário a cada um dos elementos de um conjunto de dados, a média aritmética fica adicionada (ou subtraída) dessa constante. Demonstração: Sejam o conjunto de dados não agrupados X = {x x xn1 2, ,..., } e uma constante ―a” qualquer. Defini-se um conjunto Y = {yi | yi = xi + a, i = 1 , 2, ..., n}. Então, para o caso da adição da constante a, tem-se: aX n na n x n ax n ax n y Y iiii Exercício: Faça a demonstração para o caso de Y = {yi | yi = xi – a, i = 1 , 2, ..., n }, ou seja, para caso da subtração da constante a. Exemplo: A cada elemento de um conjunto de 1000 dados foi adicionado o valor 10. Pelos histogramas abaixo, percebe-se que a média dos valores da variável X se alterou de 5 para 15, mas o histograma não apresentou qualquer alteração na sua forma. UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 17 0 10 20 0 100 200 300 400 Valore de X F re q ü ê n c ia 5ª) Multiplicando-se (ou dividindo-se) um valor constante e arbitrário a cada um dos elementos de um conjunto de dados, a média aritmética fica multiplicada (ou dividida) por essa constante. Demonstração: Sejam o conjunto de dados não agrupados X = {x x xn1 2, ,..., } e a, uma constante qualquer. Defini-se um conjunto Y = {yi | yi = a.xi, i = 1 , 2, ..., n }. Então, para o caso da multiplicação pela constante a, tem-se: Xa n x a n xa n y Y iii .. . Exercício: Faça a demonstração para o caso de Y = {yi | yi = (1/a).xi, i = 1 , 2, ..., n }, ou seja, para caso da divisão pela constante a. Exemplo: Neste caso, para o mesmo conjunto de 1000 dados, cada valor foi multiplicado por 2. Como resultado, a média ficou multiplicada por 2 e passou de 5 para 10, como é possível observar nos histogramas a seguir. Além da alteração na média, ocorreu também alteração na forma. O por quê da alteração da forma será visto mais adiante. 0 5 10 15 0 100 200 300 400 Valores de X F re q ü ê n c ia Exercício: Prove que é possível obter a média aritmética adicionando-se um valor arbitrário à média dos desvios tomados em relação a esse valor. UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 18 1.4. Outro processo de cálculo da média aritmética Este processo, hoje, pode ser tratado como mais uma propriedade da média aritmética. O processo foi idealizado quando não existiam computadores. O processo era útil quando os valores do conjunto de dados eram muito grandes e a amplitude dos intervalos de classe constante. Primeiramente, defini-se uma nova variável U da seguinte maneira u x a hi i onde a = constante arbitrária tomada convenientemente, h = amplitude dos intervalos de classe (constante). Pode-se reescrever a expressão da seguinte forma x a h ui i . , isto é, a variável X é função linear da variável U. Utilizando a quarta e a quinta propriedades da média aritmética encontra-se a expressão X a h U . , onde U = média aritmética dos ui. Assim, para calcular a média aritmética da variável X, calcula-se, primeiro, a média para a variável U e a substitui na expressão X a h U . . Exemplo: Com a distribuição de frequências da idade da população residente, com menos de 80 anos no Estado da Bahia, de acordo com a Contagem Populacional de 2007 realizada pelo IBGE, calcule a idade média pelo processo apresentado. Classes de idade População (em 1.000 hab.) Ponto médio (xi) Amplitude do intervalo (hi) Cálculos ui = (xi - 40)/hi ui.ni 0 |— 10 1 736 593 5 10 -3,5 -6 078 075,5 10 |— 20 1 963 146 15 10 -2,5 -4 907 865,0 20 |— 30 1 764 765 25 10 -1,5 -2 647 147,5 30 |— 40 1 262 541 35 10 -0,5 -631 270,5 40 |— 50 1 000 968 45 10 0,5 500 484,0 50 |— 60 706 987 55 10 1,5 1 060 480,5 60 |— 70 503 819 65 10 2,5 1 259 547,5 70 |— 80 285 013 75 10 3,5 997 545,5 Total 9 223 832 .. .. .. - 10 446 301,0 Resolução: i) Como se trata de uma distribuição de frequências por classe, primeiramente são calculados os pontos médios das classes; ii) Escolha da constante a: Em geral escolhe-se um valor no centro da distribuição. Quando o número de classes for ímpar, utiliza-se o ponto médio da classe central; quando for par o número de classes, trabalha-se com o valor mais próximo do centro da distribuição. Neste exemplo como o número de classes é par, a = 40; iii) Calcular os valores da variável reduzida U e depois a média dessa variável (ver tabela): UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 19 13,1 832.223.9 301,.446.10. i ii n nu U iv) Calcular a média aritmética da variável X: anos7,28)13,1.(1040. UhaX Exercício: O órgão oficial de turismo de certo estado realizou uma pesquisa, por amostragem, com o objetivo de conhecer o montante de gastos por turista, medido em salários mínimos, realizados na capital do estado, considerando uma permanência de sete dias no período do verão. Visando elevar o gasto dos turistas, o governo promoveu uma propaganda intensa sobre artesanato, casas noturnas, restaurantes, etc. nas grandes cidades do país e em outros países no decorrer do ano. No verão seguinte, foi realizado novo levantamento. Os dados a seguir mostram os gastos por turista antes e depois da propaganda. Valor dos gastos (em salários mínimos) Número de turistas antes da propaganda Número de turistas depois da propaganda 0 |— 1 15 20 1 |— 2 45 50 2 |— 3 40 60 3 |— 5 25 35 5 |— 10 10 30 10 |— 20 5 5 Total 140 200 a) Com base na média aritmética dos dados da amostra, verifique se há indícios de que a propaganda realizada pelo governo atingiu seus objetivos. b) As médias encontradas são medidas suficientes para avaliar o efeito da propaganda? Explique o porquê da resposta. Resposta: Média antes da propaganda = 3,04 s.m.; Média depois da propaganda = 3,375s.m. 2. Média geométrica A média geométrica é pouco aplicada em distribuições de frequências, porém é muito útil na análise de alguns tipos de dados. Notação: G = média geométrica 2.1. Definições Média geométrica simples Sejam nxxx ,...,, 21 n valores que a variável X assume e xi > 0 (i =1, 2, ..., n). A média geométrica simples é definida por n nxxxG .... 21 . UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 20 Média geométrica ponderada Se a variável X assume k valores, de modo que X = { },...,, 21 kxxx ,e se o valor x1 ocorre n1 vezes, x2 ocorre n2 vezes, ..., e xk ocorre nk vezes, de modo que nn k i i 1 , então a média geométrica ponderada é calculada da seguinte maneira: .... 21 21 n n k nn kxxxG . Pode-se, de uma maneira mais geral, exprimir a fórmula da média geométrica da seguinte forma: k i i i n k i n ixG 1 1 , onde k i 1 indica o produto de k fatores. Exemplo: Calcular a média geométrica dos valores a seguir. xi ni 1 2 2 4 3 2 5 1 Total 9 Resolução: 08,2720591615321 99 9 12429 4 1 i n i ixG Observações: 1ª) A média geométrica é menor ou igual à media aritmética (G X ). A prova desta afirmação será apresentada mais adiante. 2ª) Não é possível calcular a média geométrica quando existem valores negativos no conjunto de dados. 3ª) Quando um ou mais valores da série de dados forem nulos, a média geométrica será igual a zero. Neste caso, a média geométrica não tem sentido para a análise estatística dos dados. 4 a ) A média geométrica pode, também, ser calculada mediante o emprego de logaritmo (natural, ou neperiano, e o decimal) na sua fórmula. Aplicando o logaritmo decimal, tem- se: k i ii n k nn k i n i xn n xxx n x n G ki 1 21 1 log. 1 log...loglog 1 log 1 log 21 Pode-se concluir, portanto, que o logaritmo da média geométrica é a média aritmética dos logaritmos dos valores que a variável assume. Para encontrar o valor da média geométrica, deve-se calcular o antilogaritmo do resultado encontrado. Exercício: Com os dados do exemplo anterior, calcule a média geométrica utilizando logaritmos. Resolução: UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 21 xi ni log xi ni.log xi 1 2 0,0000 0,0000 2 4 0,3010 1,2040 3 2 0,4771 0,9542 5 1 0,6990 0,6990 Total 9 -- 2,8572 3175,08572,2. 9 1 log. 1 log 1 k i ii xn n G O valor encontrado 0,3175 corresponde ao logG. Para achar G, a média geométrica, é necessário calcular o antilogaritmo de 0,3175. Isto é, G = antilog 0,3175 = 10 0,3175 = 2,08. 2.2. Aplicações da média geométrica A média geométrica é útil no cálculo de números-índices e no estudo de fenômenos cujas variações são proporcionais a um valor inicial. Exemplo: Calcule a média geométrica da inflação anual na cidade de Salvador, medida pelo IPC - Índice de Preços ao Consumidor, observada nos anos de 2000 a 2009. A variação no ano do IPC corresponde ao acréscimo médio no preços de um conjunto de bens consumidos em um ano em relação ao ano imediatamente anterior. Ano 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 Variação no ano (%) 6,92 8,05 11,40 10,64 7,46 6,25 3,64 4,13 5,31 3,01 Fonte: SEI/SEPLAN-BA Resolução: i) Há necessidade de transformar as variações anuais do IPC em números relativos, como apresentado na tabela a seguir. Ano Variação no ano (%) IPC (em %) IPC (em números relativos) IPC acumulado 2000 6,92 106,92 1,0692 1,0692 2001 8,05 108,05 1,0805 1,1553 2002 11,40 111,40 1,1140 1,2870 2003 10,64 110,64 1,1064 1,4239 2004 7,46 107,46 1,0746 1,5301 2005 6,25 106,25 1,0625 1,6258 2006 3,64 103,64 1,0364 1,6849 2007 4,13 104,13 1,0413 1,7545 2008 5,31 105,31 1,0531 1,8477 2009 3,01 103,01 1,0301 1,9033 ii) Calcular a média geométrica simples dos IPC’s em números relativos: 0665,19033,10301,1...1140,10805,10692,1.... 101021 n nxxxG UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 22 iii) Calcula-se, por fim, a variação média anual da inflação em percentagem. Para tanto, basta subtrair uma unidade do valor da média geométrica encontrada e, a seguir, multiplicar o resultado por 100. Isto é: Variação percentual ao ano = (1,0665 - 1) x 100 = 6,65%. Observação: Como calcular a inflação e como operar com números-índices serão apresentados na Unidade VI destas notas de aula. Exemplo: De acordo com a contagem populacional realizada pelo IBGE, a população residente de Salvador em 2007 era de 2.893 mil habitantes enquanto que no Censo de 2000 era de 2.443 mil pessoas. Calcule a variação média anual de crescimento da população nesse período e estime a população para 2010. Resolução: i) Cálculo da variação média anual de crescimento Supõe-se que o crescimento populacional se comporte como uma progressão geométrica. Representa-se uma P.G. pela sucessão a0, a1, a2, ..., an e se a0 = P2000; a1 = P2001; a2 = P2002, ..., P2007 = an = a7, onde Pi = população no ano i, i = 2000, 2001, ..., 2007, tem-se a seguinte sucessão P2000; P2001; P2002; ... ; P2007 e a razão r da P.G., ou a razão de crescimento anual, é calculada como Pi / Pi -1 = r. Para calcular o n-ésimo termo da P.G. faz-se: an = a0 . r n . Basta, agora, calcular o valor de r para encontrar a razão de crescimento. A razão de crescimento da população entre 2000 e 2007 é: 7 2000 20077 1 2000 2007 1 0 P P P P a a r nn 025,11842,1 000.443.2 .000893.2 77 A variação média de crescimento anual da população, em percentagem, entre 2000 e 2007 foi (1,025 – 1) x 100 = 2,5%. Isto significa que a cada ano a população aumentou em 2,5% em relação ao ano anterior no período compreendido entre 2000 e 2007. ii) População estimada para 2010 Pode-se fazer o cálculo a partir da população de 2000 ou de 2007 tomando-o como o primeirotermo da P.G.. Considerando a população de 2007 como o termo inicial e que de 2007 a 2010 tem-se três períodos, a população estimada para 2010 é de P2010 = P2007 . r 3 = 2.893mil x 1,025 3 = 2.893mil x 1,025 3 = 2.893 mil x 1,077 = 3.115,76 mil habitantes 3.115.760 habitantes. 3. Média harmônica A média harmônica é uma medida de tendência central pouco aplicada às distribuições de frequências. Sua aplicação principal é na construção de números-índices. UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 23 Notação: H = média harmônica 3.1. Definições Média harmônica simples Sejam nxxx ,...,, 21 n valores que a variável X assume. A média harmônica simples é definida por n i ix n H 1 1 . Média harmônica ponderada Se a variável X assume k valores, de modo que X = { },...,, 21 kxxx e se o valor x1 ocorre n1 vezes, x2 ocorre n2 vezes, ..., e xk ocorre nk vezes, de modo que nn k i i 1 , então a média harmônica ponderada é calculada da seguinte maneira: . 1 1 k i i i k i i x n n H Exemplo: Calcular a média harmônica dos valores 3, 10 e 12. Resolução: 81,5 31 180 31 603 60 5620 3 12 1 10 1 3 1 3 H 3.2. Aplicações da média harmônica A média harmônica é utilizada na construção de um tipo particular de número-índice (Índice de Paasche) e é recomendada sua utilização para séries de valores que são inversamente proporcionais (cálculo da velocidade média e custo médio de bens comprados com uma quantia fixa) ou a problemas onde não faz sentido somar os valores da variável. Exemplo: Tem-se 2.000 unidades monetárias mensais disponíveis para a compra de determinado artigo que custou, nos meses de junho, julho e agosto, respectivamente, $200, $500 e $700. Qual foi o custo médio do artigo nesse período? Resolução: Variável X = custo de certo artigo e os valores de X são {200; 500; 700}. Considera-se como ponderadores a quantia fixa disponível ao mês para a compra do artigo. Temos: UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 24 .monetárias unidades 9,355 118 000.42 700 000.2 500 000.2 200 000.2 000.2000.2000.2 H Exemplo: Um homem viaja da cidade A para a cidade B à velocidade média de 30 km/h e volta de B para A, pelo mesmo caminho, à velocidade média de 60 km/h. Determinar a velocidade média para a viagem completa. Resolução: Como não se conhece a distância entre as cidades, esta será denotada por d. Tem-se, então: km/h. 40 3 120 6030 d d dd dd H Observação: A utilização da média harmônica na construção de números-índices será apresentada na Unidade VI destas notas de aula. 4. Relação entre as médias aritmética, geométrica e harmônica Teorema: Seja o conjunto X = { },...,, 21 nxxx . Se os n valores xi são positivos e se pelo menos um dos xi’s for diferente dos demais, a média aritmética do conjunto é superior a média geométrica e, esta, por sua vez, é superior a média harmônica. XGH Demonstração: A demonstração completa do teorema, considerando um conjunto n qualquer de valores, encontra-se na seguinte referência bibliográfica: MURTEIRA. Estatística Descritiva, p. 72. Aqui será mostrado que a relação é verdadeira trabalhando apenas com dois valores para a variável. Sejam dois valores da variável X, positivos e diferentes: x1 e x2. 1º) Será verificado que G X . Aceita-se, inicialmente, que esta relação é válida. As médias são substituídas pelas respectivas definições e, depois, eleva-se ao quadrado ambos os membros da expressão. Tem-se: 2 . 2121 xx xx 4 . 2 21 21 xx xx 2221 2 121 ..2..4 xxxxxx 0..2 2221 2 1 xxxx 0)( 2 21 xx Como está sendo supondo que x1 > 0 e x2 > 0 e que x1 x2, o quadrado da diferença entre os dois valores só pode ser positiva, logo a suposição de que G X é verdadeira. UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 25 2) Seja a variável auxiliar Y = 1/X. Pelo resultado encontrado na primeira parte do teorema, tem-se que a média geométrica de Y é menor do que a média aritmética de Y. Pode-se escrever que, considerando n valores para a variável Y: n y y n i i n n i i 1 1 . Como foi definido que i i x y 1 , tem-se n x x n i i n n i i 1 1 1 1 (I). O lado esquerdo desta última expressão por ser reescrito como: n n i i n n n n n n x xxxxxxxxx 1 212121 1 .... 1 .... 11 ... 1 . 1 . (II) Desta forma, retornando à expressão (I) e substituindo o resultado de (II), tem-se: n x x n i i n n i i 1 1 1 1 n n i in i i x x n 1 1 1 GH , ou seja, a média harmônica é menor do que a média geométrica, supondo que os valores de X sejam todos positivos e diferentes. 3) Como G X e H G , pode-se concluir que H G X . Observações: 1ª) As três médias serão iguais somente quando todos os valores da variável forem iguais. 2ª) Se os valores da variável não diferirem muito, tem-se: 2 HX G 5. Média quadrática, média cúbica e média biquadrática Notações: ca.biquadráti média cúbica; média X ;quadrática média BQ C Q X X UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 26 5.1. Definições Seja o conjunto X = { },...,, 21 nxxx . As definições destes três tipos de médias são, para dados não agrupados: i) A média quadrática simples de X é definida por: n x X n i i Q 1 2 . Exercício: Construa a fórmula da média quadrática ponderada. ii) A média cúbica simples de X é definida por: 3 1 3 n x X n i i C . Exercício: Construa a fórmula da média cúbica ponderada. iii) A média biquadrática simples de X é definida por: 4 1 4 n x X n i i BQ . Exercício: Construa a fórmula da média biquadrática ponderada. 6. Fórmula geral das médias Foram apresentados vários tipos de médias, cada uma com sua própria definição. Entretanto, existe uma fórmula matemática geral que permite chegar às fórmulas individuais das médias. A fórmula geral, também chamada média de ordem q, é dada por qn i q i n x qM 1 1 )( , onde M(q) é uma função definida apenas para valores reais de q, quando as observações para a variável X são positivas (xi > 0, i = 1, 2, ..., n). Ao atribuir valores a q são encontradas as diversas médias apresentadas anteriormente. Tem-se: UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 27 Para q = 1 M x n X i i n ( )1 1 1 1 média aritmética; Para q = - 1 M x n x n n x H i i n i i n ii n( ) 1 1 1 1 1 1 1 1 1 média harmônica; Para q = 2 M x n x n X i i n i i n Q( )2 2 1 2 2 1 média quadrática. Com relação à média geométrica, pode ser demonstrado (ver MURTEIRA, Estatística descritiva, p. 73) que quando q tende a zero, no limite, a média de ordem zero - M(0) - é igual à média geométrica - G. GM n x qM qn i q i qq )0(lim)(lim 1 100 Exercício: Faça q = 3 e 4 na fórmula da média de ordem q e identifique o tipo de média encontrado. UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 28 Unidade III Desenvolvimento teórico das medidas de dispersão e suas propriedades 1. Introdução A Estatística só se interessa por fenômenos que apresentam variabilidade. Esta variabilidade, geralmente, é medida em relação a uma medida de tendência central. Portanto, analisar um conjunto de observações utilizando unicamente as medidas de tendência central não é suficiente para conhecer as principais características de um conjunto de dados. O exemplo a seguir ilustra essa situação. Exemplo: A tabela a seguir contém informações sobre a produção diária de certa peça para três empregados em uma indústria: Empregado Dia Média diária 1° 2° 3° 4° 5° Carlos 82 70 65 60 73 70 Daniel 60 78 68 62 82 70 Eduardo 53 72 75 75 75 70 Embora todos os três empregados apresentem a mesma média diária de produção (70 peças), quando se observa cada dia separadamente os empregados têm desempenho diferenciado. Observa-se, portanto, que a produção média não nos mostra as diferenças existentes no desempenho diário no trabalho. Supondo que interessa ao administrador da empresa que os empregados apresentem produção elevada e mais homogênea possível, fica a pergunta: Qual dos três empregados apresentou melhor desempenho no trabalho no período observado? Exemplo: Considerando agora apenas dois outros empregados com produções médias diárias diferentes: Empregado Dia Média diária 1° 2° 3° 4° 5° Antônio 70 71 69 70 70 70 Benedito 60 80 70 62 83 71 Observando-se apenas a produção média diária, poder-se-ia concluir que Benedito apresentou melhor desempenho do que Antônio. Porém, quando se observa cada informação separadamente, verifica-se que a produção de Antônio variou entre 69 e 71 peças, enquanto que a de Benedito variou entre 60 e 83 peças. Com isto já é possível perceber que Antônio apresentou produção diária mais homogênea que Benedito. UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 29 Medidas de dispersão As medidas de dispersão servem para avaliar o grau de variabilidade ou dispersão dos valores de um conjunto de dados. Estas medidas permitem estabelecer comparações entre fenômenos de mesma natureza ou de natureza distinta e, em geral, a variabilidade é observada em torno de uma medida de tendência central. As medidas de dispersão podem ser absolutas ou relativas. As principais medidas são: i) Absolutas Amplitude total; Desvio médio; Variância; e Desvio padrão. ii) Relativas Coeficiente de variação de Pearson. 2. Medidas absolutas de dispersão As medidas absolutas de dispersão vêem expressas na mesma unidade de medida da variável em estudo. 2.1. Amplitude total Notação: AT = amplitude total Definição: A amplitude total de um conjunto de números é a diferença entre os valores extremos do conjunto de dados. AT = Máximo – Mínimo Exercício: Calcular as amplitudes totais da produção de peças nos exemplos anteriores e identificar: (i) qual empregado apresenta a menor dispersão; e (ii) qual apresenta a maior dispersão na produção diária. Resolução: Empregado Dia Média diária Amplitude total 1° 2° 3° 4° 5° Carlos 82 70 65 60 73 70 82 – 60 = 22 Daniel 60 78 68 62 82 70 82 – 60 = 22 Eduardo 53 72 75 75 75 70 75 – 53 = 22 Antônio 70 71 69 70 70 70 71 - 69 = 02 Benedito 60 80 70 62 83 71 83 - 60 = 23 Através da amplitude total, foi possível ratificar o observado anteriormente: Benedito, embora apresente a maior produção média diária, foi o empregado que obteve a maior UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 30 variabilidade na produção diária, isto é, o pior desempenho, uma vez que apresentou a maior variabilidade. Antônio, dentre os empregados com produção média igual a 70 peças, foi quem apresentou a produção mais homogênea. Contudo, com base apenas na média aritmética e na amplitude total, não é possível observar diferença entre a produção de Carlos, Daniel e Eduardo. Observa-se, ainda, que os dois primeiros apresentaram produção máxima e mínima iguais. Exercício: São idênticas as produções diárias observadas de Daniel e Eduardo? Justifique sua resposta. Resposta: ____________________________________________________________________________ ___________________________________________________________________________ Considerações sobre a medida amplitude total 1ª) A amplitude total é a medida mais simples de dispersão. 2ª) A desvantagem desta medida é que leva em conta apenas os valores mínimo e máximo do conjunto. Se ocorrer qualquer variação no interior do conjunto de dados, a amplitude total não nos dá qualquer indicação dessa mudança. Isto foi exemplificado anteriormente com a produção de Carlos, Daniel e Eduardo. 3ª) A amplitude total também sofre a influência de um valor atípico (ou discrepante) na distribuição (valor muito elevado ou muito baixo em relação ao conjunto). Quando isto ocorre sugere-se, alternativamente como medida de dispersão, utilizar a diferença entre os percentis de ordem 5 e de ordem 95 ou, ainda, os percentis de ordem 10 e 90. 4ª) Quando a distribuição de frequências é organizada por intervalos de classes, pode-se tomar como amplitude total a diferença entre o limite superior da última classe e o limite inferior da primeira classe. Menos frequentemente usa-se, também, a diferença entre os pontos médios das classes extremas. 5ª) Não é possível definir a amplitude total para dados agrupados em classes de frequências quando existem classes abertas. Pelas observações anteriores, percebe-se que a amplitude total não mede de forma adequada a variabilidade de um conjunto de dados. Medidas de variabildade que consideram todas as observações do conjunto de dados são mais recomendadas. Por outro lado, foi afirmado anteriormente que a média aritmética é a medida de tendência central mais utilizada e é, portanto, indicada como padrão de referência para dimensionar a variabilidade dos dados do conjunto. Com base nos desvios (diferenças) das observações em relação à média aritmética é possível construir algumas medidas de variabilidade. São elas: o desvio médio, o desvio padrão e a variância. UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 31 2.2. Desvio médio Notação: DM = desvio médio Definição: Sejam nxxx ,...,, 21 , n valores que a variável X assume. O desvio médio é definido como a média aritmética dos valores absolutos dosdesvios em relação à média aritmética da distribuição. n Xx DM n i i 1 . Se o conjunto de dados estiver organizado na forma de distribuição de frequências, de modo que kxxx ,...,, 21 sejam k valores que a variável X assume e knnn ,...,, 21 as respectivas frequências absolutas, o desvio médio é definido como: k i i i k i i n nXx DM 1 1 . . Observação: Pela primeira propriedade da média aritmética tem-se que a soma dos desvios em relação à média aritmética é igual a zero, assim, se os desvios não forem medidos em termos absolutos não é possível construir essa medida de dispersão. Exercício: Calcular o desvio médio para a produção de peças dos empregados de certa indústria. Interprete os resultados. Empregado Dia Média diária Amplitude total Desvio médio 1° 2° 3° 4° 5° Carlos 82 70 65 60 73 70 22 6 Daniel 60 78 68 62 82 70 22 Eduardo 53 72 75 75 75 70 22 Antônio 70 71 69 70 70 70 02 Benedito 60 80 70 62 83 71 23 Resolução: i) Cálculo dos desvios médios: 70737060706570707082 5 1 70 5 11 5 11 i i n i iCarlos xXx n DM 630. 5 1 3105012 5 1 peças. Calcular os desvios médios para os demais empregados e completar a tabela. UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 32 ii) Interpretação dos resultados: ____________________________________________________________________________ ____________________________________________________________________________ Exercício: Calcular o desvio médio do número de membros na família dos funcionários de certa empresa, apresentado na Unidade II destas Notas de Aula. Resolução: Na Unidade II foi calculado o número médio de membros da família X 5 33, . Número de membros na família (xi) Número de funcionários (ni) 33,5ix ii nx .33,5 1 1 4,33 4,33 2 1 3,33 3,33 3 1 2,33 2,33 4 9 1,33 11,97 5 11 0,33 3,63 6 7 0,67 4,69 7 1 1,67 1,67 8 3 2,67 8,01 10 1 4,67 4,67 12 1 6,67 6,67 Total 36 .. 51,30 425,1 36 30,51 .33,5 36 1 . 10 1 1 1 i iik i i i k i i nx n nXx DM membros. Observação: É possível observar que no intervalo )425,133,5 ;425,133,5();( DMXDMX = (3,9 membros; 6,8 membros), arredondando os resultados, encontra-se a maioria dos estudantes (27 estudantes ou 75%) que pertencem a famílias com número de membros contido neste intervalo. Considerações sobre o desvio médio i) Pode-se construir o desvio médio utilizando qualquer outra medida de tendência central, porém seu valor será mínimo quando for utilizada a mediana como padrão de referência. ii) As vantagens do desvio médio em relação à amplitude total são que: Leva em consideração todos os valores da distribuição; É sensível a mudanças na variabilidade dos dados no interior do conjunto, pois considera no seu cálculo todos os elementos do conjunto. UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 33 iii) O desvio médio, embora apresente facilidades no cálculo, é pouco empregado devido ao uso de módulos em sua definição, que dificulta o tratamento matemático. Além disto, pela Teoria da estimação, esta medida não é o melhor estimador da variabiliade populacional. O seu estudo serve como introdução à construção de uma importante medida de dispersão: o desvio padrão. 2.3. Variância. Desvio padrão Notação: = desvio padrão 2 = variância 2.3.1. Desvio padrão Definição: Sejam nxxx ,...,, 21 , n valores que a variável X assume. O desvio padrão, também denominado desvio quadrático médio, é definido como a média quadrática dos desvios em relação à média aritmética. n Xx n i i 1 2 Se o conjunto de dados estiver organizado na forma de distribuição de frequências, de modo que kxxx ,...,, 21 sejam k valores que a variável X assume e knnn ,...,, 21 as respectivas frequências absolutas, o desvio padrão tem a seguinte expressão: k i i i k i i n nXx 1 1 2 . A expressão do desvio padrão pode ser também escrita como a seguir: i) Para dados não agrupados: n x x n n i in i i 2 1 1 21 , onde n é a frequência total. Demonstração: Pela definição do desvio padrão, tem-se que n Xx n i i 1 2 . Primeiramente, expandindo o somatório e organizando algebricamente a expressão: UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 34 2222 1 2 22 XxXxXXxxXx iiii n i i 2222222 22 XnxXnXnxXnx n n Xx iiii n x x n x nx n x nx ii i i i i 2 2 2 2 2 2 2 Substituindo o resultado encontrado para o somatório na definição do desvio padrão, tem-se: n x x nn Xx n i in i i n i i 2 1 1 21 2 1 . ii) Para dados agrupados: A demonstração para o caso dos dados agrupados é análoga a anterior. É necessário atenção para o fato de que a variável X assume k valores ( kxxx ,...,, 21 ) e que cada valor ocorre certo número de vezes ( knnn ,...,, 21 ) e k i inn 1 . n nx nx n k i iik i ii 2 1 1 2 . . 1 Exercício: Fazer a demonstração para a última expressão. Exercício: Com os dados sobre a produção diária dos três empregados, identifique, através do desvio padrão, qual deles apresenta menor variabilidade na produção diária. Empregado Dia Média diária Amplitude total Desvio médio 1° 2° 3° 4° 5° Carlos 82 70 65 60 73 70 22 6,0 Daniel 60 78 68 62 82 70 22 8,0 Eduardo 53 72 75 75 75 70 22 6,8 Resolução: - Para Carlos: i) Pela definição 46,76,55 5 70737060706570707082 22222 1 2 n Xx n i i UFBA – Instituto de Matemática – Departamento de Estatística Lia Terezinha L. P. Moraes Disciplina: MATD39 – Análise Descritiva e Exploratória de Dados A Agosto de 2011 35 ii) Pela fórmula alternativa: 46,76,552450024778 5 1 5 350 7360657082 5 11 222222 2 1 1 2 n x x n n i in i i Observação: Caso os valores encontrados não sejam os mesmos, revisar os cálculos. - Para Daniel: 67,8 peças - Para Eduardo: 58,8 peças Como as médias são iguais para os três empregados (70 peças), pode-se comparar diretamente os valores encontrados para os desvios padrão. Observa-se que Carlos apresentou a menor dispersão na produção diária de peças. Desvio padrão amostral IMPORTANTE: Quando o objetivo é apenas calcular a variabilidade de um conjunto de dados qualquer, sem ter como finalidade fazer inferências sobre a população, utiliza-se qualquer uma das expressões apresentadas anteriormentepara o desvio padrão. Entretanto, se o conjunto observado diz respeito a uma amostra e o objetivo é conhecer as características populacionais
Compartilhar