Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA Ana Laura Bertelli Grams O que é estatística Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: � Reconhecer os conceitos básicos relacionados à estatística. � Identificar as aplicações da estatística em situações cotidianas e no seu trabalho profissional. � Explicar os passos e os resultados. Introdução O uso da estatística está relacionado com a necessidade de organização dos seres humanos, seja no estudo das populações (demografia), nas tomadas de decisões nos setores econômicos (economia), no controle de qualidade e monitoramento de resultados em um processo produtivo (engenharia), na previsão de fenômenos futuros evidenciados em situa- ções anteriores (administração), além de diversas outras áreas. Podemos dizer que o objetivo do estudo da estatística é descobrir como obter dados úteis para análise e o que fazer com eles. Neste capítulo, você reconhecerá elementos básicos da estatística, explorará exemplos que ilustram aplicações da estatística em variadas áreas do conhecimento e, ainda, distinguirá as fases do método estatístico. Conceitos básicos da estatística Toda evolução humana dá-se em virtude de descobertas e invenções, que podem ser criadas ou adaptadas para contribuir e descomplicar a vida do homem, seja na área da saúde, engenharia, economia, comunicação, entre outras. Essa evolução se deve em grande parte à análise de dados coletados nas mais diversas áreas. E, coletar e analisar tais dados são funções da esta- tística, embasando decisões, planejamentos, sabendo como obter dados úteis e, principalmente, o que fazer com eles. A coleta, organização, interpretação e análise dos dados de nada adiantam se não afetarem uma tomada de decisão. � O controle de qualidade de uma indústria de airbags necessita deter- minar a eficácia dos sistemas produzidos. Se a indústria testar todos os airbags, sua produção nunca chegaria ao mercado e seria uma indústria de testes, não de produtos. Sendo assim, o controle é realizado em parte do estoque produzido. � Baseado em suas vendas anteriores, um empresário precisa decidir a quantidade de produto que deve estocar para o mês seguinte. � A estimativa do valor do dólar no mercado é feita a partir de análi- ses preliminares de fatos recorrentes da economia e consequências subsequentes. � O resultado de uma eleição é pressuposto minutos após encerrar o período de votação, e essa é uma conjectura fundamentada em apenas 3 ou 4% dos eleitores entrevistados no dia da eleição, depois de votarem — esse fato é popularmente chamado de pesquisa de “boca de urna”. � Uma empresa faz uso de informações sobre seus clientes para gerenciar seu negócio. Ela conhece seu cliente por meio de pesquisas anuais relativas a hábitos, estilos de vida, gostos particulares, entre outros, permitindo, assim, tomar decisões sobre campanhas de marketing, maneiras de abordagem, tipos de produtos a manter em estoque, e assim por diante. Em cada um dos casos anteriores, podemos perceber a importância de estimar, observar fenômenos e gerar dados. Todas essas informações, obtidas por meio de métodos estatísticos, proporcionam uma tomada científica de decisões, fundamentadas e que melhor garantem os resultados esperados. O que é estatística2 A estatística pode ser definida como um ramo da matemática aplicada que estuda maneiras de coletar, organizar, analisar, interpretar e chegar a conclusões ou anteci- pações sobre eventos ou populações, a partir da investigação e de considerações de uma parte do todo. A estatística se divide em três grandes áreas (MILONE, 2006): � estatística descritiva; � inferência estatística; � estatística probabilística. A estatística descritiva se responsabiliza pela descrição dos dados, ou seja, a coleta, a apresentação (seja ela por meio de gráficos, tabelas ou números) e a organização dos dados de modo que sejam fáceis de serem interpretados. Um exemplo de apresentação numérica da estatística descritiva é a MÉDIA, a qual é tomada a partir de um conjunto de dados e calculada com a finalidade de facilitar a interpretação do tomador de decisões. A média é uma medida de tendência central, considerada como um ponto de equilíbrio do conjunto. Por isso, seu uso é tão habitual na interpretação e compreensão dos fenômenos estudados. Os gráficos (Figura 1) e quadros (Quadro 1) também são bons exemplos da estatística descritiva, que buscam sintetizar e apresentar dados de maneira compreensível. 3O que é estatística Figura 1. Gráfico em linha — vendas de uma loja de calçados durante o ano de 2017. Fábrica de calçados Maria Valentina R$14.000,00 R$12.000,00 R$10.000,00 R$8.000,00 R$6.000,00 R$4.000,00 R$2.000,00 R$– jan fev mar abr mai jun jul ago set out nov dez Notas Frequência Frequência relativa 5 6 30,0% 6 4 20,0% 7 4 20,0% 8 3 15,0% 9 2 10,0% 10 1 5,0% Total 20 100,0% Quadro 1. Distribuição de frequência das notas de Estatística de 20 estudantes A estatística inferencial, ou inferência estatística, é a utilização dos dados obtidos por meio da estatística descritiva, isto é, a interpretação, seja ela uma estimativa ou uma hipótese sobre eventos prováveis, fundamentada em características dos dados. A análise da possibilidade de um evento ocorrer e o seu grau de incerteza são a finalidade da estatística probabilística. Consequentemente, a inferência estatística utiliza-se da teoria da probabilidade para interpretar e concluir a possibilidade da ocorrência de um fenômeno. O que é estatística4 Na estatística descritiva, alguns termos, como dado, conjunto de dados, variáveis, dados quantitativos e qualitativos, são bastante comuns. Veja, a seguir, o que eles significam. � Dado: são informações (fatos ou números) obtidas a partir da coleta, geralmente sintetizados por meio de gráficos, tabelas, medidas centrais, etc., a fim de serem interpretados. Sem os dados não há análise ou interpretação de fenômenos, assim, eles podem ser qualificados como a matéria-prima para o processo de todos os métodos estatísticos. � Conjunto de dados: são todos os dados coletados, ou seja, o conjunto de informações obtidas de elementos. Essas informações caracterizam ou descrevem todos os elementos qualitativa ou quantitativamente de um grupo. � Dados quantitativos: informações numéricas que quantificam algo. Sendo assim, seus valores são sempre expressos por números. Os da- dos quantitativos podem ser discretos (provenientes de contagem, ou seja, apenas números inteiros) ou contínuos (provenientes de medida, expressos por um número real, inteiro ou não). � Dados qualitativos: informações não numéricas que identificam uma característica dos elementos investigados. Os dados qualitativos podem ser as respostas de nomes, locais, incidência ou não de uma doença (em geral, respostas como sim ou não), cor de pele, entre outras. � Variáveis: são os atributos que originam os dados. São chamados assim (variáveis) porque exprimem um grau de variabilidade. Por exemplo, a cor da pele é a variável, alternando entre branca, negra, amarela, etc. Outros exemplos de variáveis são a quantidade de filhos, a altura, o peso, a idade. Assim como os dados, as variáveis também são classificadas em quantitativas e qualitativas. Na estatística inferencial e probabilística, surgem, também, outros termos comuns, como os seguintes. � População: é o conjunto de todos os elementos, apresentando pelo menos uma característica em comum, que representam o universo que será observado no estudo em questão. � Amostra: é uma fração da população, a qual será representada. A amostra é sempre um subconjunto finito de elementos selecionados do conjunto maior: a população. Na estatística, existem técnicas de amostragem, ou seja, maneiras para eleger os elementos a serem estudados e compor a amostra. 5O que é estatística Aplicações da estatística Os conhecimentos básicos da estatística são úteis não apenas para cientistaspesquisadores, mas muito válidos para as pessoas em geral manterem-se bem-informadas e não serem enganadas ou iludidas por números, gráficos e tabelas capazes de persuadir seus leitores. Todos os dias, os jornais impressos, televisivos ou periódicos científicos apresentam fatos e resumos estatísticos para auxiliar na interpretação de tendências sociais ou econômicas, por exemplo, baseadas na geração de dados coletados sobre a atualidade. Frequentemente nos deparamos com pesquisa- dores coletando dados sobre nossas opiniões e estilos de vida das pessoas, a fim de inferir sobre a população em questão. Com os dados, é possível criar campanhas de marketing direcionadas para os consumidores de determinado produto ou, mesmo, elaborar políticas públicas que melhoram a qualidade de vida das pessoas. Huff (2016, p. 7) destaca, em seu livro intitulado Como mentir com a Estatística, que: [...] a Estatística possui uma linguagem secreta que geralmente sensa- cionaliza e confunde as pessoas afirmando supersimplificar e apelando para uma cultura “baseada em fatos”. É fato que os métodos estatístico relatam os dados das tendências sociais e econômicas, da “opinião”, das condições de mercado e dos negócios e também dos censos. Mas sem narradores honestos com as palavras ou sem compreensão, e sem leitores que saibam o que significam, o resultado só poderá ser o ab- surdo semântico. As aplicações da estatística são inúmeras, desde os conceitos mais bási- cos de interpretação de notícias de jornais para um leigo leitor até testes de hipóteses, regressões e controles estatísticos de qualidade. Buscamos alguns exemplos para elucidar o quanto a estatística está presente nas mais diversas áreas do conhecimento. O que é estatística6 O estatístico da Universidade Federal de Santa Catarina, Marcelo Menezes Reis, busca emergir o senso crítico das pessoas em relação à estatística. Veja no link a seguir. https://goo.gl/PiZsJJ Estatística na engenharia As engenharias civil, mecânica, de produção, entre outras, utilizam-se da estatística para melhorar processos e tirar conclusões na presença de variabi- lidade. Quando se realiza medições (coleta de dados) repetidamente, pode-se perceber uma variação a cada ocorrência e, no caso de uma produção em série, por exemplo, isso pode representar um problema. É necessário analisar o percentual de falhas e verificar ele é significativo para uma tomada de decisões. Além disso, saber o que concluir de uma amostra de dados que é altamente exposta a variações a cada medição, se é possível confiar nestes dados — a projeção de resultados e conclusões seguros são feitas por meio da estatística. Outro caso do uso da estatística que pode ser comum na engenharia é o estudo da capacidade de rodovias em determinada região, influenciando dire- tamente na abrangência da obra civil a ser realizada. Esse estudo é submetido a um modelo de deslocamento que planeja o sistema de transporte, baseado no número de moradores daquela região, na quantidade de veículos de cada moradia e na quantidade de itinerários disponíveis. Estatística na economia O futuro da economia seguidamente é previsto por estudiosos, sendo esta previsão seguida devotadamente por empreendedores e investidores que desejam alavancar seus negócios. Por exemplo, como é possível prever a situação econômica de um país ou o comportamento das taxas de juros após decisões importantes, como as eleições presidenciais? Estatísticos e econo- mistas utilizam-se de informações e indicadores, como valores de produção, que permitem a criação de modelos para taxas de inflação e desemprego ou inclinação da manufatura. 7O que é estatística Estatística na saúde A tomada de decisões por políticas públicas de controle de doenças, de cam- panhas de vacinação e a incidência de epidemias são alguns exemplos da aplicação da estatística na área da saúde. Especialmente processos de serviços hospitalares podem ser resolvidos por meio da aplicação de modelos estatísticos e probabilidade, contribuindo para a melhoria no atendimento dos pacientes. A variação de atendimentos em uma unidade de emergência influencia dire- tamente na capacidade de leitos e organização do número de funcionários. E, ainda, dados dos pacientes internados analisados diariamente auxiliam na evolução de uma doença ou na cura dela, e, quando comparados e relacionados com uma amostra maior de pacientes, podem originar estudos de prevenção. Estatística no marketing A análise de dados do seu perfil a partir de uma rede social ou de pesquisas de opinião é muito utilizada para encontrar padrões de comportamento e influenciar o consumidor em decisões de compras ou de uso de serviços. As análises dos padrões de comportamento podem ser vendidas para indústrias a fim de basearem a quantidade da sua produção nas intenções de consumo de uma determinada população. As estratégias de marketing de qualquer empresa podem ser baseadas em resultados estatísticos das promoções realizadas e, até mesmo, no público-alvo de cada negócio. Estatística na informática Exemplo da aplicação da estatística na informática são a análise de desempenho dos sistemas computacionais e o uso de banco de dados para desenvolvimento de softwares e aplicativos das mais diversas áreas. Ao programar, simulam-se situações reais, as quais costumam dispor de variabilidade, ou seja, não são previsíveis. É nesses casos que observamos a presença da estatística, ao inserir a aleatoriedade nos sistemas de simulações reais. Estatística na administração e nas finanças Tomar decisões no ramo das finanças e da administração é determinante para a maioria das tarefas exigidas. Sabendo que a estatística é a área que fornece mecanismos de coleta, análise e interpretação de dados para embasar um feito, fica evidente sua utilidade para facilitar as ações nessas áreas. O que é estatística8 Um exemplo são as recomendações de investimentos financeiros feitas por analistas, os quais avaliam uma situação passada, ou a variabilidade de preços, perdas e ganhos, e comparam todos os dados com fatos que influenciam essas variáveis. Essa busca de dados, a análise e as comparações das informações são objetivos da estatística. Ainda nessas áreas, uma empresa que adota metas precisa estabelecê-las de acordo com padrões do próprio empreendimento, de vendas, compras, lucros, entre outros. A partir da análise dessas informações é que se determina quais das metas serão de curto, médio ou longo prazo, a fim de que sejam atingíveis ou, mesmo, possibilitem a superação (ANDERSON, 2008). Passos e resultados Todo estudo estatístico depende de um planejamento detalhado, e cada etapa se submete à determinação da etapa anterior. Resumidamente, as etapas deste estudo são demonstradas na Figura 2. Figura 2. Ciclo das etapas de um estudo estatístico. Problema Variável Tomada de decisão relacionada ao problema Interpretação Coleta dedados Organização dos dados 9O que é estatística O esquema está apresentado como um ciclo, pois percebemos que, ao gerar um conhecimento referente ao problema inicial, é possível que se originem novos problemas, motivados por fatos novos que, antes da coleta de informa- ções, eram desconhecidos. Cada etapa do esquema anterior apresenta fases importantes que precisam ser definidas e dependem da origem do problema. 1. Definir o problema: a definição do problema deve ser o primeiro passo para qualquer pesquisa. Na prática, definir o problema é transformar o tema da pesquisa em uma pergunta que deverá ser respondida ao final de todo o processo que segue. 2. Planejar a coleta de dados: a coleta de dados será determinada pelo tipo de pesquisa — em função do problema de pesquisa, devemos planejar se esta será de caráter experimental ou de levantamento (BARBETTA; REIS; BORNIA, 2008). A pesquisa experimental tem a característica de manipular os elementos para avaliar os efeitos. Por exemplo, qual a reação de um medicamento em um grupo de animais,ou quais os efeitos em um traço de concreto quando utilizados aditivos especiais, ou qual a resistência de uma peça de automóvel quando exposta a altas temperaturas, etc. Neste tipo de pesquisa, a coleta de dados é feita exclusivamente após a realização dos experimentos. A pesquisa de levantamento é aquela que gera dados a partir da obser- vação (ou da medida) das características dos elementos em questão — por exemplo, a contagem nos censos demográficos, as pesquisas de intenções de votos, uma anamnese a fim de prescrever diagnóstico de um paciente, etc. Nas pesquisas de levantamento, os dados são coletados por meio de instrumentos que os mensuram. Quando as variáveis analisadas são quantitativas, os instrumentos são geralmente definidos pela norma de unidades padrão, como termômetros para medir temperaturas, réguas e trenas que medem altura ou comprimentos e a própria contagem numérica (conjunto dos números naturais) para determinar quantidades. Já quando as variáveis são qualitativas, é necessária a elaboração de um questionário como instrumento de pesquisa. Nele, devem conter as questões que avaliam cada variável, como estado civil, intenção de voto a partir das seguintes opções, escolaridade, etc. O que é estatística10 Ainda no planejamento de coleta de dados, é necessário delinear como os elementos pesquisados serão selecionados de modo que a amostra seja imparcial e que represente fielmente a população. Ou seja, é preciso definir as técnicas de amostragem quando a pesquisa não é realizada com todos os elementos da população, mas, sim, com uma amostra. Dois fatores tornam a aleatorização imparcial. Primeiro, ninguém consegue prever o resultado da seleção da amostra antes que ele de fato ocorra. Segundo, o conjunto de resultados subjacente deve ser igualmente provável (SHARPE; VEAUX; VELLEMAN, 2011). 3. Organização, apresentação e análise dos dados: com os dados coletados, temos o que chamamos de dados brutos da pesquisa. A partir deles, é pre- ciso organizá-los e apresentá-los de maneira adequada para análise e futura conclusão. A organização deve ser feita mediante critérios de classificação, sejam em ordem alfabética nos dados qualitativos ou crescente para dados quantitativos, por exemplo. A disposição dos dados de maneira adequada facilita a análise e inibe que o erro aconteça ou que algum dado não seja considerado. Depois de organizados, os dados são apresentados em tabelas, gráficos ou histogramas, a fim de ficarem mais evidentes para análise. Os dados quantitativos, além de serem analisados a partir de tabelas e gráficos, permitem-nos analisar por meio de medidas descritivas que cons- tituem uma síntese das características analisadas. Algumas dessas medidas são as médias e as medidas de dispersão. Essas medidas são uma maneira generalizada de notarmos o conjunto de elementos como um todo, classificando-os descritivamente quando possível. 4. Os resultados: após conhecer todas as características dos dados, a partir da análise, faz-se as conclusões sobre a população, ou seja, o todo considerado na pesquisa. Por meio da estatística inferencial, é possível fazer deduções e previsões relevantes, com o intuito de responder o problema inicial da pesquisa. 11O que é estatística ANDERSON, D. R. Estatística aplicada à administração e economia. 2. ed. São Paulo: Cengage Learning, 2008. BARBETTA, P. A.; REIS, M. M. R.; BORNIA, A. C. B. Estatística para cursos de engenharia e informática. 2. ed. São Paulo: Atlas, 2008. HUFF, D. Como mentir com estatística. Rio de Janeiro: Intrínseca, 2016. MILONE, G. Estatística: geral e aplicada. São Paulo: Thomson Learnig, 2006. SHARPE, N. R.; VEAUX, R. D.; VELLEMAN, P. F. Estatística aplicada: administração, economia e negócios. Porto Alegre: Bookman, 2011. Leituras recomendadas BECKER, J. L. Estatística básica: transformando dados em informação. Porto Alegre: Bookman, 2015. NAVIDI, W. Probabilidade e estatística para ciências exatas. Porto Alegre: AMGH, 2012. O que é estatística12 Conteúdo: BIOESTATÍSTICA Juliane Silveira Freire da Silva Revisão técnica: Rute Henrique da Silva Ferreira Licenciada em Matemática Mestre em Educação Matemática Doutora em Sensoriamento Remoto Catalogação na publicação: Karin Lorien Menoncin CRB-10/2147 P228b Parenti, Tatiane. Bioestatística / Tatiane Parenti, Juliane Silveira Freire da Silva, Jamur Silveira; [revisão técnica : Rute Henrique da Silva Ferreira ]. – Porto Alegre: SAGAH, 2018. 207 p. il. ; 22,5 cm ISBN 978-85-9502-362-8 1. Bioestatística. I. Silva, Juliane Silveira Freire da. II. Silveira, Jamur. III.Título. CDU 311 Bioestatistica_LIVRO.indb 2 13/03/2018 09:16:30 Organização de dados: tabelas e gráficos Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: � Reconhecer por que os dados devem ser organizados em estatística. � Identificar os principais tipos de tabelas e gráficos. � Selecionar o tipo de gráfico mais adequado para cada tipo de situação. Introdução Neste capítulo, vamos calcular e aplicar métodos estatísticos à análise de dados. A partir daí, construir e analisar tabelas e gráficos utilizando as normas científicas. Por que organizamos os dados em estatística? Quando estamos coletando os dados, essa coleta ocorre de forma aleatória e, durante esse processo, não temos a capacidade de organizá-los e também não temos condições de tomar alguma decisão com base na coleta, sem o tratamento desses dados. Por esse motivo, precisamos começar a analisar os dados coletados e, de alguma forma, resumi-los para podermos visualizar os resultados de forma organizada, iniciando, assim, a análise descritiva dos dados. Primeiramente, resumimos em tabelas de distribuição de frequências e depois podemos fazer gráficos, o que visualmente é melhor para representar os dados (Figura 1). A análise descritiva dos dados ainda dispõe de outras técnicas além dessas, mas, neste capítulo, atentaremos para a análise de tabelas e gráficos. Bioestatistica_LIVRO.indb 99 13/03/2018 09:16:40 Figura 1. Exemplo de diferentes tipos de gráficos. Fonte: Araujo (2011). Título do grá�co Título do grá�co Título do grá�co Título do grá�co Série 1 (linha esquerda) Série 1 Série 2 Série 3 18 16 14 12 10 45 10,00 9,00 8,00 7,00 6,00 5,00 4,00 3,00 2,00 1,00 0,00 40 35 30 25 20 15 10 5 7 6 5 4 3 2 1 0 8 6 4 2 Série 4 Série 1 Série 2 Série 3 Série 4 Série 2 (linha direita) Categoria E, 1 Categoria A, 5 Categoria D, 2 Categoria C, 3 Categoria B, 4 Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov DezJan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Sobre a coleta de dados, é importante estarmos sempre atentos à forma como coleta- mos os dados. Precisamos, antes de qualquer coleta, estabelecer a metodologia para a escolha das unidades amostrais. Muitas vezes, quando coletamos dados, estamos interessados em poder fazer inferência para o restante da população (extrapolar para toda a população). Somente quando temos uma amostra probabilística – ou seja, os elementos da população são escolhidos por sorteio aleatório – que poderemos realizar inferências. Caso a amostra não seja probabilística, poderemos apenas fazer uma análise descritiva dos dados e o resultado dessa análise dirá respeito somente à amostra pesquisada. Organização de dados: tabelas e gráficos100 Bioestatistica_LIVRO.indb 100 13/03/2018 09:16:40 Tipos de tabelas e gráficos Existem tabelas que são para dados qualitativos, que também chamamos de tabelas para dados categóricos (Tabela 1). São tabelas simples em que se anota a frequência que cada uma das opções de resposta aparece na amostra. Sexo F Fr Masculino 63 52,5 Feminino 57 47,5 Total 120 100,0 Tabela 1. Exemplo de tabela com dados qualitativos. Conforme verificado na Tabela 1, a coluna f (frequência simples absoluta) é resultado da contagem da frequência quecada uma das palavras apareceu na amostra. Ou seja, havia 63 pessoas do sexo masculino e 57 do sexo feminino na amostra. Para calcularmos a coluna fr, precisamos ver quanto cada uma das fre- quências tem de proporção no total da amostra. Podemos resolver isso por regra de três. 120 63 100% x 120 ∙ x = 63 ∙ 100 x = 63∙100 120 = 52,5% Podemos representar essa tabela com um gráfico de setores, também conhecido como gráfico de pizza, conforme a Figura 2. 101Organização de dados: tabelas e gráficos Bioestatistica_LIVRO.indb 101 13/03/2018 09:16:40 Figura 2. Gráfico de setores (pizza). 47,5 52,5 Masculino Feminino Observe que em tabelas para dados de uma variável qualitativa nominal, devemos ordenar do mais frequente para o menos frequente. Já quando temos uma variável qualitativa ordinal, precisamos respeitar a ordem em que a variável é apresentada (Tabela 2). Satisfação F fr Muito satisfeito 12 13,3 Satisfeito 14 15,6 Indiferente 21 23,3 Insatisfeito 19 21,1 Muito insatisfeito 24 26,7 Total 90 100 Tabela 2. Exemplo de tabela com dados qualitativos ordinais sobre a satisfação com o atendimento recebido em uma Unidade de Pronto Atendimento (UPA) de Porto Alegre, RS. Para representarmos essa tabela, podemos fazer um gráfico de colunas, conforme a Figura 3. Organização de dados: tabelas e gráficos102 Bioestatistica_LIVRO.indb 102 13/03/2018 09:16:40 Figura 3. Exemplo de gráfico de colunas. 30,0 25,0 20,0 15,0 13,3 Muito satisfeito Muito insatisfeito Satisfeito InsatisfeitoIndiferente 15,6 23,3 26,7 21,1 10,0 5,0 0,0 Podemos também utilizar as tabelas para representar dados quantitativos. Nesse caso, podemos ter tabelas por ponto e tabelas por intervalos (também chamadas de tabelas por classes). Variáveis quantitativas discretas costumam gerar tabelas de distribuição de frequência por ponto (Tabela 3). Número de filhos F fr 0 12 15,0 1 11 13,8 2 23 28,8 3 19 23,8 4 9 11,3 5 6 7,5 Total 80 100 Tabela 3. Exemplo de tabela quantitativa sobre o número de filhos por família. 103Organização de dados: tabelas e gráficos Bioestatistica_LIVRO.indb 103 13/03/2018 09:16:40 Também podemos representar esses dados com um gráfico de colunas, conforme a Figura 4. Figura 4. Gráfico de colunas sobre o número de filhos por família. 30,0 35,0 25,0 20,0 15,0 15,0 13,8 28,8 23,8 11,3 7,5 543210 10,0 5,0 0,0 Já as variáveis quantitativas geram tabelas de distribuição de frequências por intervalos (Tabela 4). Faixa F Fr 15|---25 9 14,5 25|---35 12 19,4 35|---45 22 35,5 45|---55 11 17,7 55|---65 8 12,9 Total 62 100,0 Tabela 4. Exemplo de tabela com variáveis quantitativas sobre a faixa etária. Organização de dados: tabelas e gráficos104 Bioestatistica_LIVRO.indb 104 13/03/2018 09:16:40 Para representarmos essa tabela, precisamos nos dar conta de um fato: entre as faixas, não existe um intervalo numérico, pois chegamos ao limite de um número e na faixa seguinte já iniciamos com ele. Assim, não podemos representar nenhum espaço no eixo do gráfico quando temos um gráfico de colunas. Nesse caso, as colunas estão grudadas umas às outras, e chamamos esse gráfico de histograma (Figura 5). Figura 5. Exemplo de gráfico histograma. 30,0 35,0 25,0 20,0 15,0 14,5 15| ---25 25| ---35 35| ---45 45| ---55 55| ---65 19,4 35,5 17,7 12,9 10,0 5,0 0,0 Quando temos uma variável quantitativa discreta, pode ser que também precisemos fazer intervalos para melhor representar os dados. Caso existam mais de 10 opções de resposta, já podemos montar os intervalos para poder representar melhor esses dados. 105Organização de dados: tabelas e gráficos Bioestatistica_LIVRO.indb 105 13/03/2018 09:16:40 Podemos ainda acrescentar mais colunas a essas tabelas que representam dados quantitativos para utilizarmos para fins de análise (Tabela 5). As co- lunas que necessariamente precisam aparecer em uma tabela de distribuição de frequências, além da primeira coluna que representa as opções de resposta dos dados coletados, são: � f → frequência simples absoluta (resulta da contagem na amostra). � fr → frequência simples relativa (resulta da regra de três vista ante- riormente no capítulo). � F → frequência acumulada absoluta (resulta somando a coluna f). � Fr → frequência acumulada relativa (resulta somando a coluna fr). � x’ → ponto médio do intervalo, no caso da tabela de intervalos. Faixa f fr F Fr 15|---25 9 14,5 9 14,5 (15+25)/2=20 25|---35 12 19,4 9+12=21 33,9 (25+35)/2=30 35|---45 22 35,5 21+22=43 69,4 (35+45)/2=40 45|---55 11 17,7 43+11=54 87,1 (45+55)/2=50 55|---65 8 12,9 54+8=62 100,0 (55+65)/2=60 Total 62 100,0 - - - Tabela 5. Exemplo de tabela de faixa etária com demais colunas. Sobre a nomenclatura para a tabela de distribuição de frequências por intervalos, a barra na vertical (|) indica que o número ao seu lado está contido no intervalo. Quando temos o traço na horizontal, chegamos muito próximo ao número que está ao seu lado, mas não chegamos até ele. Por exemplo: 15|---25 → o número 15 está contido nesse intervalo, mas o número 25 não. 15---|25 → o número 15 não está contido nesse intervalo e o número 25 sim. 15---25 → o número 15 não está contido nesse intervalo e o número 25 também não. 15|---|25 → o número 15 está contido nesse intervalo e o número 25 também. Organização de dados: tabelas e gráficos106 Bioestatistica_LIVRO.indb 106 13/03/2018 09:16:41 Agora, qual gráfico escolher? Além dos gráficos apresentados aqui, temos uma grande quantidade de gráficos. Os mais básicos para a análise descritiva de dados são os de setores e os de barras ou colunas, mas não são somente esses que podemos utilizar. Quando tivermos uma variável qualitativa, tanto nominal quanto ordinal, podemos representar esses dados com um gráfico de setores, de colunas ou barras (Figura 6). Figura 6. Exemplo de dados representados em um gráfico de setores. Dois Irmãos 7% Campo Bom 10% São Leopoldo 15% Porto Alegre 32% Canoas 20% Novo Hamburgo 16% Para os mesmos dados, poderíamos representar em um gráfico de colunas e de barras (Figuras 7 e 8). 107Organização de dados: tabelas e gráficos Bioestatistica_LIVRO.indb 107 13/03/2018 09:16:41 Figura 7. Exemplo de gráfico de colunas utilizando os dados da Figura 6. 30,0 35,0 32,2 20,0 15,6 15,6 10,0 6,7 25,0 20,0 15,0 10,0 5,0 0,0 Dois Irmãos Campo Bom São Leopoldo Porto Alegre Canoas Novo Hamburgo Figura 8. Exemplo de gráfico de barras utilizando os dados da Figura 6. Porto Alegre Canoas Novo Hamburgo São Leopoldo Campo Bom Dois Irmãos 32,2 20,0 15,6 15,6 10,0 6,7 0,0 5,0 10,0 15,0 20,0 25,0 30,0 35,0 Agora, para as variáveis quantitativas para tabelas de distribuição de fre- quências simples ou por intervalos, podemos ter gráficos de colunas para representar as variáveis quantitativas discretas, conforme mostra a Figura 9. Organização de dados: tabelas e gráficos108 Bioestatistica_LIVRO.indb 108 13/03/2018 09:16:41 Para os dados de variáveis quantitativas representadas em tabelas de distri- buição de frequências por intervalos, representamos graficamente com um histograma, conforme mostra a Figura 10. Figura 9. Exemplo de gráfico de colunas com variáveis quantitativas discretas. 35,0 30,0 25,0 20,0 15,0 10,0 5,0 0,0 0 1 2 3 4 15,0 13,8 28,8 23,8 11,3 Figura 10. Exemplo de histograma. 30,0 25,0 20,0 15,0 10,0 5,0 0,0 0|---10 10|---20 20|---30 30|---40 40|---50 25,6 24,4 17,4 22,1 10,5 109Organização de dados: tabelas e gráficos Bioestatistica_LIVRO.indb 109 13/03/2018 09:16:41 Além desses gráficos, podemos citar ainda o gráfico de dispersão, que é utilizado em análise de correlação e regressão, quando temos duas variáveis e verificamos a relação entre elas. Imaginemos duasvariáveis, peso e altura. Podemos, com o gráfico de dispersão (Figura 11), verificar a relação entre elas. Cada um dos pontos representa um par de valores (peso no eixo y e altura no eixo x). Figura 11. Exemplo de diagrama de dispersão. Pe so Altura 110 100 90 80 70 60 50 40 150 160 170 180 190 200 O gráfico de linhas é utilizado quando desejamos representar uma variável quantitativa ao longo do tempo (Figura 12). O eixo x sempre será o tempo. Imaginemos acompanhar a evolução do número de nascidos vivos em uma pequena maternidade ao longo dos anos. Organização de dados: tabelas e gráficos110 Bioestatistica_LIVRO.indb 110 13/03/2018 09:16:41 Figura 12. Exemplo de gráfico de linhas. 1260 1250 1240 1230 1220 1210 1200 1190 1180 1170 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 Nestes endereços eletrônicos, você pode aprender a fazer gráficos utilizando o Excel: https://goo.gl/4mQZ0m https://goo.gl/Ek3Ydy 111Organização de dados: tabelas e gráficos Bioestatistica_LIVRO.indb 111 13/03/2018 09:16:41 Considere os dados referentes a uma pesquisa com 20 famílias de um bairro pequeno, onde foi perguntado quantas vezes o chefe da família procurou o médico no ano anterior. As respostas da coleta são as seguintes: 1 4 2 0 2 2 2 3 0 4 5 0 1 1 3 3 1 4 2 5 Para representarmos esses dados, o primeiro passo é a montagem da tabela de distribuição de frequências. Precisamos contar quantas vezes cada um dos números apareceu e então fazer os seus percentuais. nº de visitas f fr 0 3 15 1 4 20 2 5 25 3 3 15 4 3 15 5 2 10 total 20 100 A segunda maneira de representarmos esses dados seria por meio de um gráfico. 30,0 25,0 25,0 20,0 20,0 15,0 15,0 15,015,0 10,0 10,0 5,0 0,0 0 1 2 3 4 5 Concluímos então que o número mais frequente de visitas é igual a 2, representando 25%. Ou seja, mais da metade dos chefes de família foi, no máximo, até duas vezes a uma consulta com um médico no último ano. Organização de dados: tabelas e gráficos112 Bioestatistica_LIVRO.indb 112 13/03/2018 09:16:41 ARAUJO, A. Gráficos: modelos prontos. 04 fev. 2011. Disponível em: <http://geomor- fologiacesc.blogspot.com.br/2011/02/graficos-modelos-prontos.html>. Acesso em: 26 out. 2017. Leituras recomendadas CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2007. FREUND, J. E. Estatística aplicada economicamente. 11. ed. Porto Alegre: Bookman, 2007. Referência Organização de dados: tabelas e gráficos113 Bioestatistica_LIVRO.indb 114 13/03/2018 09:16:42 Encerra aqui o trecho do livro disponibilizado para esta Unidade de Aprendizagem. Na Biblioteca Virtual da Instituição, você encontra a obra na íntegra. ESTATÍSTICA Ana Laura Bertelli Grams Medidas de posição: média, mediana e moda Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: � Calcular as medidas de posição: média, mediana e moda. � Escolher a medida de posição mais adequada. � Aplicar as medidas estatísticas a partir das definições. Introdução Após a coleta e organização dos dados de uma pesquisa, é fundamental que se faça a análise para futura tomada de decisão. A análise mais trivial de um conjunto de dados é feita por meio de medidas de posição. Neste capítulo, você reconhecerá as medidas de posição central, chamadas média, mediana e moda, identificando suas definições, caracte- rísticas e aplicações em conjuntos numéricos agrupados e não agrupados. Medidas de posição: média, mediana e moda Para análise das variáveis qualitativas, precisamos nos restringir apenas à sua distribuição de frequências, enquanto que, em sua análise, as variáveis quan- titativas permitem que algumas medidas que descrevem suas características sejam manipuladas e praticadas (BARBETTA; REIS; BORNIA, 2008). As medidas que estudaremos agora serão medidas de posição central. As medidas estatísticas informam características importantes da amostra, que geralmente são um rol com muitos dados difíceis de serem analisados quando apresentados todos juntos. Por isso, buscamos algumas medidas que os descrevem. As medidas de posição mais utilizadas são as de tendência central: média, mediana e moda. Essas medidas são chamadas de medidas de tendência central, pois cada uma delas tende a se dispor em torno dos valores que ocupam as posições centrais de um rol de dados. Além delas, temos as medidas de posição chamadas separatrizes, que são: quartil, decil e percentil. Média A média é definida como o centro de massa, ou o ponto de equilíbrio, do conjunto (MILONE, 2006). Entre as principais médias, destacamos a média aritmética. A média aritmética é calculada por meio da soma dos dados (quantitativos) do conjunto e da divisão da soma pela quantidade de dados do conjunto: x– = ∑i =1 xi n n onde xi representa os dados em questão (na posição 1 até n-ésima), e n a quantidade de dados do conjunto. Características da média 1. A média é afetada por todos os elementos do conjunto (para o seu cálculo, é preciso somar todos eles). Como consequência, ela se altera a cada mudança dos elementos do conjunto, e, ainda, valores de extre- mos, muito altos ou muito baixos, tendem a aumentá-la ou diminuí-la, respectivamente, de maneira bastante significativa. Sendo 30, 32, 44, 82 e 97 dados de uma amostra qualquer, sua média é obtida com x– = 30 + 32 + 44 + 82 + 97 5 = 57. Se qualquer dado for afetado por alguma mudança, a média também será afetada, especialmente se os extremos se alterarem: 2, 32, 44, 82, 97 →x– = 2 + 32 + 44 + 82 + 97 5 = 51,4 ou ainda: 30, 32, 44, 82 e 250 →x– = 30 + 32 + 44 + 82 + 250 5 = 87,6. Medidas de posição: média, mediana e moda2 2. A média apresenta propriedades algébricas de manipulação, que são: somando-se uma constante a todos os dados da amostra, a média é aumentada da mesma constante. A média dos valores 41, 75 e 64 é 41 + 75 + 64 3 = 60. Ao somarmos a constante 5 aos dados, temos 46, 80, 69, e a média dos novos valores é 46 + 80 + 69 3 = 65. 3. O valor da média estará sempre entre o maior e o menor valor do conjunto de dados e pode não corresponder a algum valor do próprio conjunto. Como, no conjunto anterior (41, 75, 64), a média é igual a 60, sendo assim, 41 < x– < 75 e, ainda, não é igual a nenhum dado do conjunto. Média de dados agrupados O conceito de média e suas características mantém-se para qualquer conjunto de dados. Contudo, o processo do cálculo pode variar, dependendo de como esses dados estão apresentados. O caso mais simples para encontrar o valor da média é em um rol de dados simplesmente ordenados (ou não), em que basta aplicarmos a equação que a define. Já em dados que são apresentados em uma distribuição de frequência, precisamos de uma etapa anterior, para então aplicarmos a mesma fórmula. Considere a tabela de distribuição de frequência no Quadro 1, relativa ao número de acidentes ocorridos com 30 motociclistas em uma empresa de entrega rápida. 3Medidas de posição: média, mediana e moda Número de acidentes (variável) Número de motociclistas (frequência) 1 13 2 5 3 9 4 1 5 2 Quadro 1. Número de acidentes com 10 motoristas de mototáxi As frequências dos acidentes indicam a intensidade deles, facilitando a apresentação das variáveis. Contudo, para o cálculo da média, precisamos ficar atentos a elas e não nos esquecer de que cada variável tem a sua quantidade indicada na coluna ao lado. O cálculo da média de acidentes por motociclista deve ser feito da seguinte maneira: x– = (13 ∙ 1) + (5 ∙ 2) + (9 ∙ 3) + (1 ∙ 4) + (2 ∙ 5) 13 + 5 + 9 + 1 + 2 = 2,133 onde cada acidente é multiplicado pela frequência em que ocorreram e a soma deles dividida pelo total de motociclistas na empresa. De maneira geral, a média em uma distribuição de frequência é calculada pela lei: x– = ∑ (xi · fi ) ∑ fi Ou seja, o somatório doproduto entre a variável (xi) e a sua frequência correspondente a ( fi), divido pelo somatório das frequências (∑ fi ). Média de dados agrupados com intervalos de classe Além do formato do Quadro 1 para apresentação dos dados, podemos, ainda, expressá-los por meio de intervalos de classe, que se trata do agrupamento dos valores em intervalos. Essa prática é comumente utilizada em variáveis contínuas e quando cada valor tem uma baixa frequência, resultando, assim, em uma tabela com muitas linhas, que se torna inconveniente para análise. O Medidas de posição: média, mediana e moda4 Quadro 2 mostra um exemplo de distribuição de frequência com intervalos de classe. Estatura (variável) Número de alunos (frequência) 160 ⊢ 165 5 165 ⊢ 170 20 170 ⊢ 175 11 175 ⊢ 180 1 180 ⊢ 185 3 Quadro 2. Estatura (em cm) de 50 alunos de uma classe Por característica das distribuições de frequência com dados agrupados, ocultamos algumas informações anteriormente tidas nos dados brutos. Perceba que a tabela nos indica que cinco estudantes apresentam estatura entre 160 cm e 165 cm, porém não nos orienta para a altura exata de cada um deles. Para cálculo da média de dados apresentados dessa forma, precisamos assumir um único valor para esses intervalos de classe. Fizemos isso por meio do cálculo da própria média das classes. Para o exemplo anterior, teremos o Quadro 3. Estatura (variável) xi (média das classes) Número de alunos (fi) xi ∙ fi 160 ⊢ 165 160 + 165 2 = 162,5 5 812,5 165 ⊢ 170 167,5 20 3350 170 ⊢ 175 172,5 11 1897,5 175 ⊢ 180 177,5 1 177,5 180 ⊢ 185 182,5 3 547,5 6785 Quadro 3. Estatura (em cm) de 50 alunos de uma classe — inserção das colunas xi e xi ∙ fi para cálculo da média 5Medidas de posição: média, mediana e moda Note que, no Quadro 3, inserimos, além da média das classes, uma coluna com a multiplicação entre a variável e a frequência. Isso pode facilitar no cálculo da média. Contudo, é o mesmo que aplicarmos a seguinte lei: x– = ∑ (xi · fi ) ∑ fi x– = 812,5 + 3350 + 1897,5 + 177,5 + 547,5 40 = = 169,63 cm 6785 40 Concluímos, assim, que a média das estaturas entre os 40 alunos pesqui- sados é 169,63 cm. Mediana Outra medida de centro bastante utilizada é a mediana. Seu conceito é dado por: o valor que se encontra no centro de uma série ordenada de números. Ou seja, é o dado que divide o conjunto ordenado em dois subconjuntos de mesmo número de elementos (CRESPO, 2002). A posição da mediana é encontrada por n + 12 . Em um conjunto de dados não agrupados, como 8, 5, 14, 9, 56, 32, 23, no qual temos n = 7 dados, a posição da mediana é dada por 82 = 4, ou seja, na quarta posição. Contudo, antes de localizarmos o dado que se encontra na quarta posição, é preciso ordená-los segundo um critério preestabelecido, de ordem crescente, por exemplo. Sendo assim, temos 5, 8, 9, 14, 23, 32, 56, onde constatamos que a mediana é igual a 14. Em casos em que a quantidade de dados é par, teremos dois termos no centro da série. Assim, precisamos encontrar o ponto médio dos dois valores para determinarmos a mediana. Na série 2, 5, 8, 9, 14, 23, 32, 56, o quarto e o quinto termos são que dividem a série em dois subconjuntos com o mesmo número de elementos. Dessa forma, a mediana dessa é dada por 9 + 142 = 11,5. Perceba que a mediana, além de uma medida de tendência central, também é con- siderada separatriz, pois divide o conjunto de dados em duas partes com iguais quantidades de elementos. Medidas de posição: média, mediana e moda6 As separatrizes separam o conjunto de dados em grupos com o mesmo número de valores, os quartis dividem o conjunto em 4 (quatro) partes iguais, os decis em 10 (dez) e os percentis em 100 (cem). Moda A moda é geralmente a medida de tendência central mais simples de ser informada, pois exige apenas a observação dos dados existentes. Definimos moda como o valor que ocorre com maior frequência em um conjunto de dados. Ou seja, é o valor mais comum dentre todos do conjunto. No exemplo 2, 5, 8, 9, 14, 23, 32, 56, temos um conjunto em que todos os elementos têm a mesma frequência. Isso implica em um conjunto amodal, ou sem moda. Já a série de dados 2, 5, 8, 8, 8, 9, 9 14, 23, 32, 56 tem moda igual a 8, e a série 2, 5, 8, 8, 8, 9, 9 14, 23, 32, 56, 56, 56 tem duas modas: 8 e 56. Neste último caso, chamamos o conjunto de bimodal. Escolha da medida de posição mais adequada A escolha entre a média, a mediana e a moda depende dos fatores que elas afetam. É necessário conhecer suas propriedades com a finalidade de adequar a melhor medida a cada caso em estudo. Uma das características da média é sua sensibilidade a valores muito altos ou muito baixos do conjunto de dados, pois é uma medida que reflete cada valor do conjunto. Sendo assim, uma análise possível é: quando os valores extremos do conjunto de dados são consideravelmente dispersos dos de- mais, a média não é uma medida de posição indicada para análise, pois ela não representa adequadamente a maioria dos dados do conjunto. Por outro lado, a mediana é, de fato, insensível aos valores extremos do conjunto, podendo estes se alterarem, e, mesmo assim, a mediana se manter. Portanto, no caso citado, a indicação é a utilização da mediana como medida de posição mais adequada. Em contrapartida, a média é mais prática de ser calculada, visto que, para encontrar a mediana, é imprescindível a ordenação dos dados, o que acarreta 7Medidas de posição: média, mediana e moda em grande dificuldade quando o conjunto apresenta grande quantidade de dados, sobretudo quando não se utiliza de recursos tecnológicos para tal. A moda é geralmente um ponto isolado, mas de maior peso no conjunto de elementos. Sua característica é vantajosa sobre as demais, pois é sempre um valor típico, o qual tem maior quantidade de valores concentrados no mesmo ponto. Quando temos dados qualitativos, não podemos aplicar as medidas de posição média e mediana, por motivos óbvios. Em contrapartida, a moda é uma medida de posição que pode ser obtida mesmo em conjuntos de dados qualitativos. Aplicação a partir das definições Nesta etapa de estudo, aplicaremos os conceitos estudados anteriormente em alguns exemplos de atividades, a fim de utilizar as ferramentas estatísticas para o desenvolvimento do raciocínio lógico, enquanto descobrimos a melhor maneira para encontrar as soluções. Em um conjunto com 15 dados, a média aritmética é igual a 9. Depois de uma vistoria detalhada nos dados, descobriu-se que alguns eram inconsistentes e precisavam ser desconsiderados. Assim, os números 34, 27, 14 foram retirados. Qual será a nova média do conjunto? Solução: Temos que o primeiro conjunto tinha média igual a: x– = x1 + ... x15 15 = 9 Assim, a soma de todos os 15 elementos do conjunto de dados é dada por: x1 + ... x15 = 9 · 15 = 135 Medidas de posição: média, mediana e moda8 Com a retirada de três elementos, passamos a ter 12 dados, e sua soma representada por: x1 + ... x12 = 135 – 34 – 27 – 14 = 60 Aplicando a definição de média, temos: x– = x1 + ... x12 12 60 = 5 12 = Aplicou-se uma prova para 80 alunos da turma da disciplina de Estatística. Porém, como o espaço físico era pequeno, dividiu-se a turma em duas partes, que realizaram a prova em dias diferentes. No primeiro dia, 35 alunos realizaram a avaliação, e a média desse grupo foi 9,0. No segundo dia, aplicou-se a prova para os demais, que obtiveram média igual a 7,0. Qual foi a média da turma toda? Solução: Podemos representar a média da turma do primeiro dia como: x— = x1 + ... x35 35 = 91 bem como a média da segunda turma é: x— = x1 + ... x45 45 = 72 x1 + ... x35 = 9 · 35 = 315 x1 + ... x45 = 7 · 45 = 315 x1 + ... x80 = 315 + 315 = 630 Portanto, a média final é igual a: x— = x1 + ... x80 80 = 7,87f 630 80 = 9Medidas de posição: média, mediana e moda Uma loja de roupas está promovendo um bazar de suas peças e fez a seguinte promoção: � 2 blusas custam R$ 89,00 cada; � 4 blusas custam R$ 68,00cada; � 6 blusas custam R$ 57,00 cada. Qual é o preço médio das blusas desta loja no seu bazar? Solução: Os valores expostos na promoção nos fornecem a seguinte relação: x– = (2 · 89,00) + (4 · 68,00) + (6 · 57,00) 12 = = 66,00 792 12 Concluímos, assim, que o preço médio de cada blusa é igual a R$ 66,00. Os próximos exemplos da aplicação da média são exercícios adaptados de concursos de vestibular, que mostram variações no raciocínio utilizado para empregar o cálculo da média. (FUVEST) Sabe-se que a média aritmética de 5 dados, sendo esses números inteiros distintos, estritamente positivos, é igual a 16. O maior valor existente entre esses dados é igual a: a) 16 b) 20 c) 50 d) 70 e) 100 Solução: Como indicado, o conjunto tem cinco elementos. Assim, da mesma maneira das soluções anteriores, temos: x– = x1 + ... x5 5 = 16 Medidas de posição: média, mediana e moda10 Portanto, a soma de todos os 5 elementos do conjunto de dados é dada por: x1 + ... x5 = 16 · 5 = 80 Então, para descobrirmos o maior valor possível entre os 5 dados, assumiremos os 4 outros valores como os menores possíveis, ou seja: 1 + 2 + 3 + 4 + x = 80 Sendo assim, o maior valor possível do conjunto de dados é: x = 80 – 1 – 2 – 3 – 4 x = 70 Resposta: letra D. (FUVEST) Numa classe com vinte alunos, as notas do exame final podiam variar de 0 a 100, e a nota mínima para aprovação era 70. Realizado o exame, verificou-se que 8 alunos foram reprovados. A média aritmética das notas desses oito alunos foi 65, enquanto que a média dos aprovados foi 77. Após a divulgação dos resultados, o professor verificou que uma questão havia sido mal formulada e decidiu atribuir 5 pontos a mais para todos os alunos. Com essa decisão, a média dos aprovados passou a ser 80, e a dos reprovados, 68,8. a) Calcule a média aritmética das notas da classe toda antes da atribuição dos cinco pontos extras. b) Com a atribuição dos cinco pontos extras, quantos alunos, inicialmente reprovados, atingiram nota para a aprovação? Solução: a) Com os dados informados no problema, temos: x– reprovados = x1 + ... x8 8 = 65 x– aprovados = x1 + ... x12 12 = 77 x– total = (x1 + ... x8) + (x1 + ... x12) 20 = 520 + 924 20 = 72,2 A média das notas da classe antes da atribuição dos cinco pontos extras era de 72,2. 11Medidas de posição: média, mediana e moda b) A nova média de toda a turma, após a atribuição dos cinco pontos por aluno, é: x1 + ... x5 = 16 · 5 = 80 x– = 520 + 924 + (5 · 20) 20 = 1544 20 = 77,2 Com a atribuição dos cinco pontos, é possível que alguma quantidade de alunos tenha sido aprovada — chamemos essa quantidade de A. Sendo assim, a nova quantidade de alunos aprovados é 12 + A, e de alunos reprovados, 8 – A. Temos, do enunciado, que a nova média dos aprovados é 80, e dos reprovados, 68,8. Então: 77,2 = (12 + A) 80 + (8 – A) 68,8 20 Resolvendo a equação, temos que A = 3. Assim, 3 alunos foram aprovados após a atribuição dos 5 pontos. BARBETTA, P. A.; REIS, M. M.; BORNIA, A. C. Estatística para cursos de engenharia e infor- mática. 2. ed. São Paulo: Atlas, 2008. CRESPO, A. A. Estatística fácil. 17. ed. São Paulo: Saraiva, 2002. MILONE, G. Estatística: geral e aplicada. São Paulo: Thomson Learning, 2006. Leitura recomendada BECKER, J. L. Estatística básica: transformando dados em informação. Porto Alegre: Bookman, 2015. Medidas de posição: média, mediana e moda12 Conteúdo: Assimetria José Tadeu de Almeida Introdução Nesta aula, aprofundaremos nosso conhecimento sobre a assimetria. Para isso, verificare- mos quais as situações em que, utilizando-nos de uma distribuição de dados, é possível identificar se há uma tendência de distribuição de dados ao longo da média, ou se o conjunto possui alguma desigualdade. Assim, entenderemos o conceito e as características das distribuições simétricas e assimétricas. Objetivos de aprendizagem Ao final desta aula, você será capaz de: • identificar os tipos de assimetria baseados na posição relativa entre a média e a mediana. 1 Conceito de assimetria Quando pensamos em assimetria, normalmente, estamos considerando uma desigualdade, uma discrepância, uma tendência. Já a simetria, por sua vez, pressupõe uma organização de ele- mentos que segue uma ordem, uma coincidência de informações (CRESPO, 2005). Além disso, na Estatística, quando analisamos uma distribuição de dados associada a uma amostra ou a uma população, é comum efetuarmos alguns cálculos denominados medidas de posição, como a média (que denota o ponto equidistante entre os dois extremos de uma distribuição), a mediana (que divide os dados do conjunto em duas partes iguais) e a moda (o elemento que se repete com maior frequência). Deste modo, quando analisamos graficamente esta distribuição, verificamos se ela é simé- trica, ou seja, igualmente distribuída em relação à média, ou assimétrica, quando há uma diferença em relação à distribuição de dados em torno da média. Assim, quanto maior for esta diferença, pode-se dizer que a distribuição é mais assimétrica (CRESPO, 2005). Para entender melhor o conceito de assimetria, tomemos um exemplo. Um aluno, ao anali- sar um conjunto de dados, constrói um histograma - uma representação gráfica em colunas, em que o eixo horizontal apresenta as classes (intervalos de valores) e o eixo vertical apresenta as frequências (o número de vezes em que se visualizou um certo dado) - verificando como se dá a distribuição dos valores para uma característica de interesse. Figura 1 – HistogramaHistograma Classe Fr eq uê nc ia 1 2 3 4 5 5 4 3 2 1 0 Fonte: elaborada pelo autor, 2016. No exemplo, vimos que a distribuição dos dados é simétrica, pois, em cinco classes, há o mesmo número de dados distribuídos em torno da média. Mas, como verifi car a simetria de uma distribuição de dados de um conjunto, ou de uma amostra de várias classes? Nestes casos, utili- zamos o primeiro Coefi ciente de Assimetria de Pearson (Ap), um valor adimensional que permite a verifi cação da assimetria, conforme a equação: = X Mo-X Mo- Ap s Em que: Ap = coefi ciente de assimetria; S = desvio padrão, que é dado pela equação ( )22 1 n ii x Xix Xi n = x X−x X∑ cujo quadrado corresponde à variância; O somatório ( )∑ n 2 i i=1 x X−x X−ix Xi mostra os quadrados dos desvios, ou seja, as diferenças de cada dado xi, sendo i =1, 2, 3... até o último dado, n, em relação à média; x = média das observações, dada pela fórmula ni=1 /∑ iX x n nX x nn /X x n/X x n=X x n=∑X x n∑ iX x ni ; Mo = Moda, ou seja, o elemento que apresenta maior frequência; = n – número de observações. Caso um conjunto de dados não possua moda, utilizamos o segundo coefi ciente de assime- tria de Pearson dado por: ( )3× −(× −( = X Md× −X Md× − Ap s Em que Md representa a mediana, o valor que separa os 50% menores dos 50% maiores valores. 2 Tipos de assimetria Uma distribuição de frequências pode ser classifi cada como simétrica, assimétrica posi- tiva ou assimétrica negativa, em função de como os dados e frequências são distribuídos (CRESPO, 2005). FIQUE ATENTO! A distribuição simétrica não é preferível à distribuição assimétrica, ou seja, não há um critério de qualidade em relação à simetria de um conjunto de dados, uma vez que as características de interesse devem ser fi xadas pelo pesquisador. Quando o Coefi ciente de Assimetria de Pearson é igual a zero, observamos que a média é igual a moda, logo, o ponto que contém a maior frequência corresponde à média, e a distribuição é perfeitamente simétrica. Na fi gura anterior, temos um exemplo de distribuição simétrica, uma vez que a moda, a mediana e a média são iguais e estão na terceira classe. Assim, há o mesmo número de dados à esquerda e à direita desta classe. Caso haja uma tendência de acumulação das frequências à esquerda ou à direita da moda, observaremos que esta distribuição possui uma assimetria. Trata-se do chamado “encauda- mento” (CRESPO,2005). 3 Distribuições simétricas - características A distribuição simétrica ocorre quando uma amostra possui uma característica de interesse que tenha valores igualmente dispostos em torno da moda e da média. Para Stevenson (2001, p. 48) a distribuição é simétrica quando “a metade esquerda é a imagem refl exa da metade direita”. A fi gura a seguir representa uma distribuição simétrica. Figura 2 – Distribuição simétrica -3 -25 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 Fonte: elaborada pelo autor, 2016. FIQUE ATENTO! Em uma distribuição de frequências, a chamada ‘curva normal’ possui uma distri- buição simétrica, sendo que cerca de 95% dos dados encontra-se em uma distân- cia inferior a dois desviospadrões em relação à média. A distribuição simétrica possui as seguintes características: • x Md Mox Md Mox Md Mo= =x Md Mo , ou seja, a média, mediana e moda se equivalem; • Ap = 0, o coefi ciente de assimetria é nulo; • metade do gráfi co é a imagem-espelho da outra. Portanto, há uma pequena probabilidade de visualização de frequências baixas ou altas nas primeiras e últimas classes destas distribuições, fazendo com que este tipo de distribuição tenha a forma de um “sino”. EXEMPLO Calculemos o coefi ciente de assimetria do conjunto de dados A = {1,2,2,3,3,3,4,4,5}. Primeiro, precisamos obter a média, que é dada por: ( )1 2 2 3 3 3 4 4 5/ 3(/ 3( )/ 3)1 2 2 3 3 3 4 4 5/ 31 2 2 3 3 3 4 4 5 9 / 3 9 / 3 1 2 2 3 3 3 4 4 5+ + + + + + + +1 2 2 3 3 3 4 4 51 2 2 3 3 3 4 4 5 / 3 1 2 2 3 3 3 4 4 5+ + + + + + + +1 2 2 3 3 3 4 4 5 / 3 1 2 2 3 3 3 4 4 5 / 3= = =/ 3(/ 3(= = =(/ 3( )/ 3)= = =)/ 3)/ 3= = =/ 3∑ iX x n/ 3X x n/ 3X x n/ 3X x n/ 3= = =X x n= = =/ 3= = =/ 3X x n/ 3= = =/ 3X x n= = =X x n= = =∑X x n∑= = =∑= = =X x n= = =∑= = =iX x ni= = =i= = =X x n= = =i= = =nX x nnX x ni=1 A moda é o elemento com a maior repetição: Mo 3Mo 3=Mo 3 A variância desta amostra é dada por: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 2 2 2 2 2(2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) 2 2 2 2(2 2 2( )2 2 2) (2 2 2( )2 2 2)2 1 1 3 2 3 2 3 3 3 3 3 3 3)1 3 2 3 2 3 3 3 3 3 3 3) (1 3 2 3 2 3 3 3 3 3 3 3( )1 3 2 3 2 3 3 3 3 3 3 3) (1 3 2 3 2 3 3 3 3 3 3 3( )1 3 2 3 2 3 3 3 3 3 3 3) (1 3 2 3 2 3 3 3 3 3 3 3( )1 3 2 3 2 3 3 3 3 3 3 3) (1 3 2 3 2 3 3 3 3 3 3 3( )1 3 2 3 2 3 3 3 3 3 3 3) (1 3 2 3 2 3 3 3 3 3 3 3(2 2 2 2 2 21 3 2 3 2 3 3 3 3 3 3 32 2 2 2 2 2(2 2 2 2 2 2(1 3 2 3 2 3 3 3 3 3 3 3(2 2 2 2 2 2( )2 2 2 2 2 2)1 3 2 3 2 3 3 3 3 3 3 3)2 2 2 2 2 2) (2 2 2 2 2 2(1 3 2 3 2 3 3 3 3 3 3 3(2 2 2 2 2 2( )2 2 2 2 2 2)1 3 2 3 2 3 3 3 3 3 3 3)2 2 2 2 2 2) (2 2 2 2 2 2(1 3 2 3 2 3 3 3 3 3 3 3(2 2 2 2 2 2( )2 2 2 2 2 2)1 3 2 3 2 3 3 3 3 3 3 3)2 2 2 2 2 2) (2 2 2 2 2 2(1 3 2 3 2 3 3 3 3 3 3 3(2 2 2 2 2 2( )2 2 2 2 2 2)1 3 2 3 2 3 3 3 3 3 3 3)2 2 2 2 2 2) (2 2 2 2 2 2(1 3 2 3 2 3 3 3 3 3 3 3(2 2 2 2 2 2( 4 3 4 3 5 3)4 3 4 3 5 3) (4 3 4 3 5 3( )4 3 4 3 5 3) (4 3 4 3 5 3(2 2 24 3 4 3 5 32 2 2(2 2 2(4 3 4 3 5 3(2 2 2( )2 2 2)4 3 4 3 5 3)2 2 2) (2 2 2(4 3 4 3 5 3(2 2 2( 12 1,500 1 9 1 8 = 1 3 2 3 2 3 3 3 3 3 3 3− + − + − + − + − + −1 3 2 3 2 3 3 3 3 3 3 3)1 3 2 3 2 3 3 3 3 3 3 3)− + − + − + − + − + −)1 3 2 3 2 3 3 3 3 3 3 3) (1 3 2 3 2 3 3 3 3 3 3 3(− + − + − + − + − + −(1 3 2 3 2 3 3 3 3 3 3 3( )1 3 2 3 2 3 3 3 3 3 3 3)− + − + − + − + − + −)1 3 2 3 2 3 3 3 3 3 3 3) (1 3 2 3 2 3 3 3 3 3 3 3(− + − + − + − + − + −(1 3 2 3 2 3 3 3 3 3 3 3( )1 3 2 3 2 3 3 3 3 3 3 3)− + − + − + − + − + −)1 3 2 3 2 3 3 3 3 3 3 3) (1 3 2 3 2 3 3 3 3 3 3 3(− + − + − + − + − + −(1 3 2 3 2 3 3 3 3 3 3 3( )1 3 2 3 2 3 3 3 3 3 3 3)− + − + − + − + − + −)1 3 2 3 2 3 3 3 3 3 3 3) (1 3 2 3 2 3 3 3 3 3 3 3(− + − + − + − + − + −(1 3 2 3 2 3 3 3 3 3 3 3( )1 3 2 3 2 3 3 3 3 3 3 3)− + − + − + − + − + −)1 3 2 3 2 3 3 3 3 3 3 3) (1 3 2 3 2 3 3 3 3 3 3 3(− + − + − + − + − + −(1 3 2 3 2 3 3 3 3 3 3 3( + − + − + −(+ − + − + −(4 3 4 3 5 3+ − + − + −4 3 4 3 5 3)4 3 4 3 5 3)+ − + − + −)4 3 4 3 5 3) (4 3 4 3 5 3(+ − + − + −(4 3 4 3 5 3( )4 3 4 3 5 3)+ − + − + −)4 3 4 3 5 3) (4 3 4 3 5 3(+ − + − + −(4 3 4 3 5 3( = = = == = = = ( = = = = ( ) = = = = ) ( = = = = ( ) = = = = ) ( = = = = ( ) = = = = ) = = = == = = = − −1 9 1 8− −1 9 1 8 ∑k ii x X−x X−ix Xis n Deste modo, temos que o desvio padrão amostral é dado pors 2 1,500 1,225= == =2= =2 1,500 1,225= =1,500 1,225 Assim, o coefi ciente de assimetria é 3 3 1,225 − −3 3− −3 3 = = == = == = = X Mo− −X Mo− −Ap s . Logo, a distribuição de fre- quências associado ao conjunto A é simétrica. SAIBA MAIS! Na Estatística, as distribuições simétricas associadas a uma curva normal são muito utilizadas para a formulação de Testes de Hipóteses. Esses testes procuram validar o comportamento de características de uma população a partir de uma amostra representativa da mesma. 4 Distribuições assimétricas positivas A distribuição assimétrica positiva é conhecida pelo nome de distribuição assimétrica à direita, devido ao fato de a assimetria ser visualizada na parte direita do gráfi co. Na fi gura a seguir, a distribuição possui um encaudamento (distorção) à direita, indicando que há pequenas probabi- lidades de ocorrência de valores mais altos em uma distribuição de dados associada a esta curva. Figura 3 – Distribuição assimétrica positiva -1.5 -1 -0.5 0 0.5 1 1.5 Fonte: elaborada pelo autor, 2016. A distribuição assimétrica positiva possui as seguintes características: • Mo Md xMo Md xMo Md x< <Mo Md x , ou seja, a moda é menor que a mediana, que é menor que a média; • Ap > 0, ou seja, o coefi ciente de assimetria é maior do que zero; • o gráfi co não cria imagem-espelho entre as metades. EXEMPLO Vamos calcular o coefi ciente de assimetria do conjunto de dados de uma amostra dado por: B = {1,1,1,2,2,5,16}. A média é dada por ( )1 1 1 2 2 5 16/ 4(/ 4( )/ 4) 7 1 1 1 2 2 5 16+ + + + + +1 1 1 2 2 5 16 / 4= = =/ 4/ 4= = =/ 4∑ iX x n/ 4X x n/ 4X x n/ 4X x n/ 4X x n= = =X x n= = =/ 4= = =/ 4X x n/ 4= = =/ 4= = =X x n= = =∑X x n∑= = =∑= = =X x n= = =∑= = =iX x ni= = =i= = =X x n= = =i= = =nX x nnX x ni=1 A moda é o elemento que apresenta a maior repetição, logo Mo 1Mo 1=Mo 1 A variância amostral é dada por ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 2 2 2 2 2(2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) 2 2 2 1 1 4 1 4 1 4 2 4 2 4 5 4)1 4 1 4 1 4 2 4 2 4 5 4) (1 4 1 4 1 4 2 4 2 4 5 4( )1 4 1 4 1 4 2 4 2 4 5 4) (1 4 1 4 1 4 2 4 2 4 5 4( )1 4 1 4 1 4 2 4 2 4 5 4) (1 4 1 4 1 4 2 4 2 4 5 4( )1 4 1 4 1 4 2 4 2 4 5 4) (1 4 1 4 1 4 2 4 2 4 5 4( )1 4 1 4 1 4 2 4 2 4 5 4) (1 4 1 4 1 4 2 4 2 4 5 4(2 2 2 2 2 21 4 1 4 1 4 2 4 2 4 5 42 2 2 2 2 2(2 2 2 2 2 2(1 4 1 4 1 4 2 4 2 4 5 4(2 2 2 2 2 2( )2 2 2 2 2 2)1 4 1 4 1 4 2 4 2 4 5 4)2 2 2 2 2 2) (2 2 2 2 2 2(1 4 1 4 1 4 2 4 2 4 5 4(2 2 2 2 2 2( )2 2 2 2 2 2)1 4 1 4 1 4 2 4 2 4 5 4)2 2 2 2 2 2) (2 2 2 2 2 2(1 4 1 4 1 4 2 4 2 4 5 4(2 2 2 2 2 2( )2 2 2 2 2 2)1 4 1 4 1 4 2 4 2 4 5 4)2 2 2 2 2 2) (2 2 2 2 2 2(1 4 1 4 1 4 2 4 2 4 5 4(2 2 2 2 2 2( )2 2 2 2 2 2)1 4 1 4 1 4 2 4 2 4 5 4)2 2 2 2 2 2) (2 2 2 2 2 2(1 4 1 4 1 4 2 4 2 4 5 4(2 2 2 2 2 2( 16 4 180 30 1 7 1 6 = 1 4 1 4 1 4 2 4 2 4 5 4− + − + − + − + − + −1 4 1 4 1 4 2 4 2 4 5 4)1 4 1 4 1 4 2 4 2 4 5 4)− + − + − + − + − + −)1 4 1 4 1 4 2 4 2 4 5 4) (1 4 1 4 1 4 2 4 2 4 5 4(− + − + − + − + − + −(1 4 1 4 1 4 2 4 2 4 5 4( )1 4 1 4 1 4 2 4 2 4 5 4)− + − + − + − + − + −)1 4 1 4 1 4 2 4 2 4 5 4) (1 4 1 4 1 4 2 4 2 4 5 4(− + − + − + − + − + −(1 4 1 4 1 4 2 4 2 4 5 4( )1 4 1 4 1 4 2 4 2 4 5 4)− + − + − + − + − + −)1 4 1 4 1 4 2 4 2 4 5 4) (1 4 1 4 1 4 2 4 2 4 5 4(− + − + − + − + − + −(1 4 1 4 1 4 2 4 2 4 5 4( )1 4 1 4 1 4 2 4 2 4 5 4)− + − + − + − + − + −)1 4 1 4 1 4 2 4 2 4 5 4) (1 4 1 4 1 4 2 4 2 4 5 4(− + − + − + − + − + −(1 4 1 4 1 4 2 4 2 4 5 4( )1 4 1 4 1 4 2 42 4 5 4)− + − + − + − + − + −)1 4 1 4 1 4 2 4 2 4 5 4) (1 4 1 4 1 4 2 4 2 4 5 4(− + − + − + − + − + −(1 4 1 4 1 4 2 4 2 4 5 4( + −(+ −(16 4+ −16 4 = = = == = = == = = == = = = − −1 7 1 6− −1 7 1 6 ∑k ii x X−x X−ix Xis n Como a variância é igual a 30, o desviopadrão associado a esta amostra é 2 30 5,477= == =30 5,477= =30 5,477s Assim, o coefi ciente de assimetria é 4 1 0,548 5,477 − −4 1− −4 1 = = == = == = = X Mo− −X Mo− −Ap s Como o valor é maior que zero, temos que a distribuição é assimétrica positiva. Para descobrir o sinal da assimetria (negativa ou positiva), apenas, não é necessário o cálculo do Coefi ciente de Assimetria, basta observar o sinal da diferença entre a Moda e a Média, uma vez que o Desvio Padrão é sempre maior ou igual a zero. Na Demografi a, área que estuda o comportamento da população sob uma perspectiva esta- tística, podemos encontrar exemplos de distribuições assimétricas. Em muitos países em desen- volvimento, de menor nível de renda, costuma-se observar um predomínio de habitantes de menor idade, uma vez que a baixa expectativa de vida e o crescimento populacional recente fazem com que a porcentagem de idosos nestes grupos seja pequena (CARVALHO, 2004). Assim, quando dis- tribuímos os dados por faixas etárias, percebemos uma participação muito grande de indivíduos com idade inferior à média. FIQUE ATENTO! Valores extremamente desassociados a uma distribuição de frequências, ou seja, atípicos, são denominados outliers. Eles prejudicam a análise estatística, pois inter- ferem no cálculo da média e dos coefi cientes de dispersão e assimetria. 5 Distribuições assimétricas negativas A distribuição assimétrica negativa recebe a denominação de distribuição assimétrica à esquerda, pois o “encaudamento” (distorção) está presente na parte esquerda do gráfi co. Uma distribuição assimétrica negativa pode ser evidenciada quando há dados que estejam mais asso- ciados a um limite inferior, relacionado a classes ou intervalos de classes mais baixos (classes 1, 2, 3...) para uma característica de interesse, de maneira que poucos valores sejam pertencentes a estas classes. Figura 4 – Distribuição assimétrica negativa -1.5 -1 -0.5 0 0.5 1 1.5 Fonte: elaboradapelo autor, 2016. A distribuição assimétrica negativa caracteriza-se por: • x Md Mox Md Mox Md Mo< <x Md Mo , ou seja, a média é menor que a mediana, que é menor que a moda; • Ap < 0, o coefi ciente de assimetria é menor que zero; • o gráfi co não cria imagem-espelho entre as metades. Por exemplo, no conjunto de dados: C = {1,1,2,3,4,4,4}, a média é dada por n i=1 ( )1 1 2 3 4 4 4/ 2,714(/ 2,714( )/ 2,714)1 1 2 3 4 4 4/ 2,7141 1 2 3 4 4 4 7 / 2,714 7 / 2,714 1 1 2 3 4 4 4+ + + + + +1 1 2 3 4 4 4 / 2,714= = =/ 2,714/ 2,714= = =/ 2,714∑ iX x nnX x nn / 2,714X x n/ 2,714X x n/ 2,714X x n/ 2,714X x n= = =X x n= = =/ 2,714= = =/ 2,714X x n/ 2,714= = =/ 2,714= = =X x n= = =∑X x n∑= = =∑= = =X x n= = =∑= = =iX x ni= = =i= = =X x n= = =i= = = A moda é 4=Mo A variância da amostra é ( )22 1 1 == − ∑k ii x X−x X−ix Xis n ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 2 2 2 2 2(2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) (2 2 2 2 2 2( )2 2 2 2 2 2) 2 1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714) (1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714( )1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714) (1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714( )1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714) (1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714( )1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714) (1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714( )1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714) (1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(2 2 2 2 2 21 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,7142 2 2 2 2 2(2 2 2 2 2 2(1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(2 2 2 2 2 2( )2 2 2 2 2 2)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)2 2 2 2 2 2) (2 2 2 2 2 2(1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(2 2 2 2 2 2( )2 2 2 2 2 2)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)2 2 2 2 2 2) (2 2 2 2 2 2(1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(2 2 2 2 2 2( )2 2 2 2 2 2)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)2 2 2 2 2 2) (2 2 2 2 2 2(1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(2 2 2 2 2 2( )2 2 2 2 2 2)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)2 2 2 2 2 2) (2 2 2 2 2 2(1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(2 2 2 2 2 2( 4 2,714 7 1 1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714− + − + − + − + − + −1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)− + − + − + − + − + −)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714) (1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(− + − + − + − + − + −(1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714( )1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)− + − + − + − + − + −)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714) (1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(− + − + − + − + − + −(1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714( )1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)− + − + − + − + − + −)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714) (1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(− + − + − + − + − + −(1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714( )1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)− + − + − + − + − + −)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714) (1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(− + − + − + − + − + −(1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714( )1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714)− + − + − + − + − + −)1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714) (1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714(− + − + − + − + − + −(1 2,714 1 2,714 2 2,714 3 2,714 4 2,714 4 2,714( + −(+ −(4 2,714+ −4 2,714 = 7 1−7 1 11,429 6 = ( )22 1 11,429 1,904 1 6 == = == = == = = − ∑k ii x X−x X−ix Xis n Logo, o desvio padrão amostral é 2 1,904 1,38= == =2= =2 1,904 1,38= =1,904 1,38s . Assim, temos que o coefi ciente de assi- metria é 2,714 4 0,932 1,38 − −2,714 4− −2,714 4 = = = −= = = −= = = − X Mo− −X Mo− −Ap s . Como Ap é menor que zero, a distribuição é assimé- trica negativa. Aqui, da mesma forma que no exemplo anterior, não é necessário o cálculo do Coeficiente de Assimetria para saber o sinal da assimetria, pois como a Média (2,714) é menor que a Moda (4), a assimetria é negativa. Para sabermos se uma distribuição é pouco ou muito assimétrica, com base na análise do coefi ciente de assimetria de Pearson, temos de tomar o módulo, que representa os valores abso- lutos, de tal coefi ciente. Assim, temos que, caso o valor, em módulo, para o coefi ciente seja inferior a 1, a distribuição é pouco assimétrica. No entanto, quando o valor é superior a 1, a distribuição é muito assimétrica. SAIBA MAIS! Conheça exemplos de distribuições simétricas e assimétricas no estudo do Instituto Brasileiro de Geografi a e Estatística (IBGE) sobre a população brasileira. Acesse: http://www.ibge.gov.br/home/presidencia/noticias/imprensa/ppts/00000014425 608112013563329137649.pdf . Fechamento Nesta aula, você teve a oportunidade de: • entender o que são distribuições simétricas e assimétricas; • conhecer o Coefi ciente de Assimetria de Pearson; • conhecer a classifi cação das distribuições assimétricas. Referências CARVALHO, José Alberto Magno. Crescimento populacional e estrutura demográfica no Brasil. Texto para Discussão. n. 227, Cedeplar/UFMG, 2004. Disponível em: <http://cedeplar.face.ufmg. br/pesquisas/td/TD%20227.pdf>. Acesso em: 17 fev 2017. CRESPO, Antonio. Estatística Fácil. São Paulo: Saraiva, 2005. INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA (IBGE). Projeção da população por sexo e idade: Brasil 2000-2060. Disponível em: <http://www.ibge.gov.br/home/presidencia/noticias/ imprensa/ppts/00000014425608112013563329137649.pdf.>.Acesso em: 13 fev. 2017. STEVENSON, William J. Estatística Aplicada à Administração. São Paulo: Editora Harbra, 2001. Medidas de posição: separatrizes Rafael Botelho Barbosa Introdução As medidas de posição têm por finalidade representar um conjunto de dados por meio de um valor. Nesta aula, conheceremos as medidas de posição chamadas separatrizes, bem como suas principais classificações. Objetivos de aprendizagem Ao final desta aula, você será capaz de: • identificar as medidas separatrizes. Bons estudos! 1 Medidas de posição Por meio da análise das medidas de posição, conseguimos verificar como é a distribuição de um determinado conjunto de dados. Estas medidas são divididas em medidas de tendência e sepa- ratrizes. Nesta aula, aprofundaremos nosso conhecimento sobre as separatrizes. Acompanhe! 2 Separatrizes As separatrizes são medidas de posição que separam um conjunto de dados em “n” partes. Cada uma destas partes deve conter a mesma quantidade de dados. Assim, caso façamos uma divisão de um conjunto de 40 dados em 4 partes, cada parte terá 10 dados. FIQUE ATENTO! A mediana é uma das separatrizes, visto que separa um conjunto de dados em duas partes com exatamente a mesma quantidade de dados. A classificação e nomenclatura das separatrizes dão-se com base no número de divisões fei- tas. As separatrizes mais conhecidas são: quartil (divisão de um conjunto de dados em 4 partes), decil (divisão em 10 partes) e percentil (divisão em 100 partes). SAIBA MAIS! Na seção 4 (p. 109) do texto “Estatística aplicada à educação”, do Ministério da Educação, você pode aprofundar seus conhecimentos sobre o tema desta aula. Acesse: <http://portal.mec.gov.br/seb/arquivos/pdf/profunc/estatistica.pdf>. 2.1 Quartil No quartil, a série de dados será dividida em quatro partes iguais (cada parte contém a mesma quantidade de dados). Temos, então, 3 quartis denominados 1 2 3Q ,Q ,Q . Assim, podemos dizer que 25% dos dados estão presentes dentro de cada quartil; e que 50% dos dados situam-se até o valor do quartil 2Q (note que o quartil 2Q é a mediana); 75% dos dados situam-se até o valor do quartil 3Q . Stevenson (2001, p. 22) afirma que os quartis dividem conjuntos ordenados em 4 partes iguais: 25% dos valores serão inferio- res ao primeiro quartil ( 1Q ), 50% serão inferiores ao segundo quartil ( 2Q mediana= ), 75% serão inferiores ao terceiro quartil ( 3Q ) e 25% serão superiores ao terceiro quartil. De acordo com Crespo (2005), os quartis são valores (o valor de um quartil pode não coincidir com um valor observado) que dividem o conjunto de dados em quatro partes iguais, conforme figura a seguir. Figura 1 – Representação das divisões dos quartis Q1 Q2 Q3 0% 25% 50% 75% 100% Fonte: elaborada pelo autor, 2016. Os quartis podem ser calculados como: • dados não agrupados: quando os dados não estão agrupados em classes (interva- los de valores). Nestes casos, devemos utilizar a expressão i ii k f Q 4 = ∑ para calcular os quartis; EXEMPLO Considerando os dados (2, 2, 3, 4, 5, 6, 6, 6, 8, 9), temos que ( )1 1 10 Q = =2,5 4 ; 2Q , que é a me- diana, é dado pela média dos elementos centrais, logo vale 5,5; e ( )3 3 10 Q 7,5 4 = = ; assim, podemos dizer que: o quartil 1 ocupa a posição 2,5, ou seja, ele é o valor 2,5 (média de 2 e 3); o quartil 2 é 5,5; o quartil 3 ocupa a posição 7,5, é o valor 6 (média de 6 e 6). • dados agrupados com intervalos de classes: quando os dados estão agrupados em classes, devemos utilizar a expressão ( )i * i i * k f F ant h 4 Q LI f − = + ∑ Em que: iQ - quartil i; iLI - limite inferior da classe que contém o quartil em análise; k - número do quartil (quartil 1, 2, ou 3); if 4 ∑ - somatório das frequências dividido por 4; ( )F ant - frequência acumulada da classe anterior àquela que estamos analisando; *h - intervalo ou amplitude da classe que estamos analisando; *f - frequência da classe que estamos analisando. EXEMPLO Considere as classes apresentadas na tabela a seguir. Tabela 1 – Classes Classe Frequência simples Frequência acumulada [150,154) 4 4 [154,158) 9 13 [158,162) 11 24 [162,166) 8 32 [166,170) 5 37 [170,174) 3 40 Fonte: elaborada pelo autor, 2016. Assim, calculamos os quartis. Quartil 1: 1x40 10 4 = . Então, 10 dados são inferiores ou iguais ao quartil 1. Logo, ele está na classe [154, 158). Assim, 1 1x40 4Q 154 4 156,66 4 9 = + − = ; EXEMPLO Quartil 2: 2x40 20 4 = . Então, 20 dados são inferiores ou iguais ao quartil 2. Logo, ele está na classe [158, 162). Assim, 2 2x40 4Q 158 13 160,54 4 11 = + − = ; Quartil 3 3x40 30 4 = . Então, os dados são inferiores ou iguais ao quartil 3. Logo, ele está na classe [162, 166). Assim, 3 3x40 4Q 162 24 165 4 8 = + − = ; Assim encontramos todos os quartis para o caso em questão. Atente para as expressões utilizadas para calcular os quartis para dados agrupados em clas- ses e para dados não agrupados. Você irá notar que nos tópicos a seguir, faremos apenas algumas reformulações destas expressões. 2.2 Decil Os decis dividem um conjunto de dados em 10 partes iguais. Deste modo, podemos dizer que 10% dos dados são inferiores ou iguais ao primeiro decil 1D , 20% dos dados são inferiores ou iguais ao segundo decil 2D e assim por diante, até chegar ao último decil. Figura 2 – Representação das divisões dos decis D1 D2 D9 0% 10% 20% 90% 100%. . . . . . Fonte: elaborado pelo autor, 2016. FIQUE ATENTO! O decil 5 equivale à mediana, visto que 50% dos dados são menores ou iguais a ele. Agora, vejamos os cálculos para dados não agrupados ou agrupados em classes. • Dados não agrupados: quando os dados não estão agrupados em classes, usamos a expressão i i i k f D 10 = ∑ • Dados agrupados com intervalos de classes: quando os dados estão agrupados em classes, devemos utilizar ( )i * i i * k f F ant h 10 D LI f − = + ∑ Em que: iD - decil i; iLI - limite inferior da classe que contém o decil em análise; k - número do decil (1, 2, 3, ...9); if 10 ∑ - somatório das frequências dividido por 10; ( )F ant - frequência acumulada da classe anterior àquela que estamos analisando; *h - intervalo ou amplitude da classe que estamos analisando; *f - frequência da classe que estamos analisando. Para exemplificar o cálculo, considere o seguinte conjunto de dados: 2, 3, 4, 5, 6, 6, 6, 7, 8, 8, 9, 9, 9, 10, 11, 12,12, 13, 14, 15. Quais seriam, então, os três primeiros decis? Note que temos 20 dados, logo, o primeiro decil é o valor que ocupa a posição 1 x 20 2ª posição 10 = , que é o 3. O segundo decil é o valor que ocupa a posição 2x20 4ºposição 10 = , que é 5. O terceiro decil é o valor que ocupa a posição 3x20 6ºposição 10 = 203x 6ºposição 2 = , que é 6. Os cálculos dos decis seguem a mesma linha de raciocínio dos quartis, sendo necessário apenas fazer as devidas adaptações. 2.3 Percentil O percentil divide um conjunto de dados em 100 partes iguais. Desta forma, o percen- til 1P indica que 1% dos dados são inferiores ou iguais a ele. O percentil 2P ilustra que 2% dos dados são inferiores ou iguais a ele; o 3P indica que 3% dos dados são inferiores ou iguais a ele; e assim sucessivamente. Figura 3 – Representação das divisões dos percentis P1 P2 P98 0% 1% 2% 98% 100%. . . . . . 99% P99 Fonte: elaborada pelo autor, 2016. Os percentis também são calculados a partir de dados não agrupados e agrupados em classes. • Dados não agrupados: quando os dados não estão agrupados em classes, usamos a expressão i i i k f P 100 = ∑ • Dados agrupados com intervalos de classes: quando os dados estão agrupados em classes, usamos ( )i * i i * k f F ant h 100 P LI f − = + ∑ Em que: iP - percentil i; iLI - limite inferior da classe que contém o percentil em análise; k - número do percentil (1, 2, 3, ...99); if 100 ∑ - somatório das frequências dividido por
Compartilhar