Baixe o app para aproveitar ainda mais
Prévia do material em texto
BIOESTATÍSTICA Juliane Silveira Freire da Silva Revisão técnica: Rute Henrique da Silva Ferreira Licenciada em Matemática Mestre em Educação Matemática Doutora em Sensoriamento Remoto Catalogação na publicação: Karin Lorien Menoncin CRB-10/2147 P228b Parenti, Tatiane. Bioestatística / Tatiane Parenti, Juliane Silveira Freire da Silva, Jamur Silveira; [revisão técnica : Rute Henrique da Silva Ferreira ]. – Porto Alegre: SAGAH, 2018. 207 p. il. ; 22,5 cm ISBN 978-85-9502-362-8 1. Bioestatística. I. Silva, Juliane Silveira Freire da. II. Silveira, Jamur. III.Título. CDU 311 Bioestatistica_LIVRO.indb 2 13/03/2018 09:16:30 Organização de dados: tabelas e gráficos Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: � Reconhecer por que os dados devem ser organizados em estatística. � Identificar os principais tipos de tabelas e gráficos. � Selecionar o tipo de gráfico mais adequado para cada tipo de situação. Introdução Neste capítulo, vamos calcular e aplicar métodos estatísticos à análise de dados. A partir daí, construir e analisar tabelas e gráficos utilizando as normas científicas. Por que organizamos os dados em estatística? Quando estamos coletando os dados, essa coleta ocorre de forma aleatória e, durante esse processo, não temos a capacidade de organizá-los e também não temos condições de tomar alguma decisão com base na coleta, sem o tratamento desses dados. Por esse motivo, precisamos começar a analisar os dados coletados e, de alguma forma, resumi-los para podermos visualizar os resultados de forma organizada, iniciando, assim, a análise descritiva dos dados. Primeiramente, resumimos em tabelas de distribuição de frequências e depois podemos fazer gráficos, o que visualmente é melhor para representar os dados (Figura 1). A análise descritiva dos dados ainda dispõe de outras técnicas além dessas, mas, neste capítulo, atentaremos para a análise de tabelas e gráficos. Bioestatistica_LIVRO.indb 99 13/03/2018 09:16:40 Figura 1. Exemplo de diferentes tipos de gráficos. Fonte: Araujo (2011). Título do grá�co Título do grá�co Título do grá�co Título do grá�co Série 1 (linha esquerda) Série 1 Série 2 Série 3 18 16 14 12 10 45 10,00 9,00 8,00 7,00 6,00 5,00 4,00 3,00 2,00 1,00 0,00 40 35 30 25 20 15 10 5 7 6 5 4 3 2 1 0 8 6 4 2 Série 4 Série 1 Série 2 Série 3 Série 4 Série 2 (linha direita) Categoria E, 1 Categoria A, 5 Categoria D, 2 Categoria C, 3 Categoria B, 4 Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov DezJan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Sobre a coleta de dados, é importante estarmos sempre atentos à forma como coleta- mos os dados. Precisamos, antes de qualquer coleta, estabelecer a metodologia para a escolha das unidades amostrais. Muitas vezes, quando coletamos dados, estamos interessados em poder fazer inferência para o restante da população (extrapolar para toda a população). Somente quando temos uma amostra probabilística – ou seja, os elementos da população são escolhidos por sorteio aleatório – que poderemos realizar inferências. Caso a amostra não seja probabilística, poderemos apenas fazer uma análise descritiva dos dados e o resultado dessa análise dirá respeito somente à amostra pesquisada. Organização de dados: tabelas e gráficos100 Bioestatistica_LIVRO.indb 100 13/03/2018 09:16:40 Tipos de tabelas e gráficos Existem tabelas que são para dados qualitativos, que também chamamos de tabelas para dados categóricos (Tabela 1). São tabelas simples em que se anota a frequência que cada uma das opções de resposta aparece na amostra. Sexo F Fr Masculino 63 52,5 Feminino 57 47,5 Total 120 100,0 Tabela 1. Exemplo de tabela com dados qualitativos. Conforme verificado na Tabela 1, a coluna f (frequência simples absoluta) é resultado da contagem da frequência que cada uma das palavras apareceu na amostra. Ou seja, havia 63 pessoas do sexo masculino e 57 do sexo feminino na amostra. Para calcularmos a coluna fr, precisamos ver quanto cada uma das fre- quências tem de proporção no total da amostra. Podemos resolver isso por regra de três. 120 63 100% x 120 ∙ x = 63 ∙ 100 x = 63∙100 120 = 52,5% Podemos representar essa tabela com um gráfico de setores, também conhecido como gráfico de pizza, conforme a Figura 2. 101Organização de dados: tabelas e gráficos Bioestatistica_LIVRO.indb 101 13/03/2018 09:16:40 Figura 2. Gráfico de setores (pizza). 47,5 52,5 Masculino Feminino Observe que em tabelas para dados de uma variável qualitativa nominal, devemos ordenar do mais frequente para o menos frequente. Já quando temos uma variável qualitativa ordinal, precisamos respeitar a ordem em que a variável é apresentada (Tabela 2). Satisfação F fr Muito satisfeito 12 13,3 Satisfeito 14 15,6 Indiferente 21 23,3 Insatisfeito 19 21,1 Muito insatisfeito 24 26,7 Total 90 100 Tabela 2. Exemplo de tabela com dados qualitativos ordinais sobre a satisfação com o atendimento recebido em uma Unidade de Pronto Atendimento (UPA) de Porto Alegre, RS. Para representarmos essa tabela, podemos fazer um gráfico de colunas, conforme a Figura 3. Organização de dados: tabelas e gráficos102 Bioestatistica_LIVRO.indb 102 13/03/2018 09:16:40 Figura 3. Exemplo de gráfico de colunas. 30,0 25,0 20,0 15,0 13,3 Muito satisfeito Muito insatisfeito Satisfeito InsatisfeitoIndiferente 15,6 23,3 26,7 21,1 10,0 5,0 0,0 Podemos também utilizar as tabelas para representar dados quantitativos. Nesse caso, podemos ter tabelas por ponto e tabelas por intervalos (também chamadas de tabelas por classes). Variáveis quantitativas discretas costumam gerar tabelas de distribuição de frequência por ponto (Tabela 3). Número de filhos F fr 0 12 15,0 1 11 13,8 2 23 28,8 3 19 23,8 4 9 11,3 5 6 7,5 Total 80 100 Tabela 3. Exemplo de tabela quantitativa sobre o número de filhos por família. 103Organização de dados: tabelas e gráficos Bioestatistica_LIVRO.indb 103 13/03/2018 09:16:40 Também podemos representar esses dados com um gráfico de colunas, conforme a Figura 4. Figura 4. Gráfico de colunas sobre o número de filhos por família. 30,0 35,0 25,0 20,0 15,0 15,0 13,8 28,8 23,8 11,3 7,5 543210 10,0 5,0 0,0 Já as variáveis quantitativas geram tabelas de distribuição de frequências por intervalos (Tabela 4). Faixa F Fr 15|---25 9 14,5 25|---35 12 19,4 35|---45 22 35,5 45|---55 11 17,7 55|---65 8 12,9 Total 62 100,0 Tabela 4. Exemplo de tabela com variáveis quantitativas sobre a faixa etária. Organização de dados: tabelas e gráficos104 Bioestatistica_LIVRO.indb 104 13/03/2018 09:16:40 Para representarmos essa tabela, precisamos nos dar conta de um fato: entre as faixas, não existe um intervalo numérico, pois chegamos ao limite de um número e na faixa seguinte já iniciamos com ele. Assim, não podemos representar nenhum espaço no eixo do gráfico quando temos um gráfico de colunas. Nesse caso, as colunas estão grudadas umas às outras, e chamamos esse gráfico de histograma (Figura 5). Figura 5. Exemplo de gráfico histograma. 30,0 35,0 25,0 20,0 15,0 14,5 15| ---25 25| ---35 35| ---45 45| ---55 55| ---65 19,4 35,5 17,7 12,9 10,0 5,0 0,0 Quando temos uma variável quantitativa discreta, pode ser que também precisemos fazer intervalos para melhor representar os dados. Caso existam mais de 10 opções de resposta, já podemos montar os intervalos para poder representar melhor esses dados. 105Organização de dados: tabelas e gráficos Bioestatistica_LIVRO.indb 105 13/03/2018 09:16:40 Podemos ainda acrescentar mais colunas a essas tabelas que representam dados quantitativos para utilizarmos para fins de análise (Tabela 5). As co- lunas que necessariamente precisam aparecer em uma tabela de distribuição de frequências, além da primeira coluna que representa as opções de resposta dos dados coletados,são: � f → frequência simples absoluta (resulta da contagem na amostra). � fr → frequência simples relativa (resulta da regra de três vista ante- riormente no capítulo). � F → frequência acumulada absoluta (resulta somando a coluna f). � Fr → frequência acumulada relativa (resulta somando a coluna fr). � x’ → ponto médio do intervalo, no caso da tabela de intervalos. Faixa f fr F Fr 15|---25 9 14,5 9 14,5 (15+25)/2=20 25|---35 12 19,4 9+12=21 33,9 (25+35)/2=30 35|---45 22 35,5 21+22=43 69,4 (35+45)/2=40 45|---55 11 17,7 43+11=54 87,1 (45+55)/2=50 55|---65 8 12,9 54+8=62 100,0 (55+65)/2=60 Total 62 100,0 - - - Tabela 5. Exemplo de tabela de faixa etária com demais colunas. Sobre a nomenclatura para a tabela de distribuição de frequências por intervalos, a barra na vertical (|) indica que o número ao seu lado está contido no intervalo. Quando temos o traço na horizontal, chegamos muito próximo ao número que está ao seu lado, mas não chegamos até ele. Por exemplo: 15|---25 → o número 15 está contido nesse intervalo, mas o número 25 não. 15---|25 → o número 15 não está contido nesse intervalo e o número 25 sim. 15---25 → o número 15 não está contido nesse intervalo e o número 25 também não. 15|---|25 → o número 15 está contido nesse intervalo e o número 25 também. Organização de dados: tabelas e gráficos106 Bioestatistica_LIVRO.indb 106 13/03/2018 09:16:41 Agora, qual gráfico escolher? Além dos gráficos apresentados aqui, temos uma grande quantidade de gráficos. Os mais básicos para a análise descritiva de dados são os de setores e os de barras ou colunas, mas não são somente esses que podemos utilizar. Quando tivermos uma variável qualitativa, tanto nominal quanto ordinal, podemos representar esses dados com um gráfico de setores, de colunas ou barras (Figura 6). Figura 6. Exemplo de dados representados em um gráfico de setores. Dois Irmãos 7% Campo Bom 10% São Leopoldo 15% Porto Alegre 32% Canoas 20% Novo Hamburgo 16% Para os mesmos dados, poderíamos representar em um gráfico de colunas e de barras (Figuras 7 e 8). 107Organização de dados: tabelas e gráficos Bioestatistica_LIVRO.indb 107 13/03/2018 09:16:41 Figura 7. Exemplo de gráfico de colunas utilizando os dados da Figura 6. 30,0 35,0 32,2 20,0 15,6 15,6 10,0 6,7 25,0 20,0 15,0 10,0 5,0 0,0 Dois Irmãos Campo Bom São Leopoldo Porto Alegre Canoas Novo Hamburgo Figura 8. Exemplo de gráfico de barras utilizando os dados da Figura 6. Porto Alegre Canoas Novo Hamburgo São Leopoldo Campo Bom Dois Irmãos 32,2 20,0 15,6 15,6 10,0 6,7 0,0 5,0 10,0 15,0 20,0 25,0 30,0 35,0 Agora, para as variáveis quantitativas para tabelas de distribuição de fre- quências simples ou por intervalos, podemos ter gráficos de colunas para representar as variáveis quantitativas discretas, conforme mostra a Figura 9. Organização de dados: tabelas e gráficos108 Bioestatistica_LIVRO.indb 108 13/03/2018 09:16:41 Para os dados de variáveis quantitativas representadas em tabelas de distri- buição de frequências por intervalos, representamos graficamente com um histograma, conforme mostra a Figura 10. Figura 9. Exemplo de gráfico de colunas com variáveis quantitativas discretas. 35,0 30,0 25,0 20,0 15,0 10,0 5,0 0,0 0 1 2 3 4 15,0 13,8 28,8 23,8 11,3 Figura 10. Exemplo de histograma. 30,0 25,0 20,0 15,0 10,0 5,0 0,0 0|---10 10|---20 20|---30 30|---40 40|---50 25,6 24,4 17,4 22,1 10,5 109Organização de dados: tabelas e gráficos Bioestatistica_LIVRO.indb 109 13/03/2018 09:16:41 Além desses gráficos, podemos citar ainda o gráfico de dispersão, que é utilizado em análise de correlação e regressão, quando temos duas variáveis e verificamos a relação entre elas. Imaginemos duas variáveis, peso e altura. Podemos, com o gráfico de dispersão (Figura 11), verificar a relação entre elas. Cada um dos pontos representa um par de valores (peso no eixo y e altura no eixo x). Figura 11. Exemplo de diagrama de dispersão. Pe so Altura 110 100 90 80 70 60 50 40 150 160 170 180 190 200 O gráfico de linhas é utilizado quando desejamos representar uma variável quantitativa ao longo do tempo (Figura 12). O eixo x sempre será o tempo. Imaginemos acompanhar a evolução do número de nascidos vivos em uma pequena maternidade ao longo dos anos. Organização de dados: tabelas e gráficos110 Bioestatistica_LIVRO.indb 110 13/03/2018 09:16:41 Figura 12. Exemplo de gráfico de linhas. 1260 1250 1240 1230 1220 1210 1200 1190 1180 1170 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 Nestes endereços eletrônicos, você pode aprender a fazer gráficos utilizando o Excel: https://goo.gl/4mQZ0m https://goo.gl/Ek3Ydy 111Organização de dados: tabelas e gráficos Bioestatistica_LIVRO.indb 111 13/03/2018 09:16:41 Considere os dados referentes a uma pesquisa com 20 famílias de um bairro pequeno, onde foi perguntado quantas vezes o chefe da família procurou o médico no ano anterior. As respostas da coleta são as seguintes: 1 4 2 0 2 2 2 3 0 4 5 0 1 1 3 3 1 4 2 5 Para representarmos esses dados, o primeiro passo é a montagem da tabela de distribuição de frequências. Precisamos contar quantas vezes cada um dos números apareceu e então fazer os seus percentuais. nº de visitas f fr 0 3 15 1 4 20 2 5 25 3 3 15 4 3 15 5 2 10 total 20 100 A segunda maneira de representarmos esses dados seria por meio de um gráfico. 30,0 25,0 25,0 20,0 20,0 15,0 15,0 15,015,0 10,0 10,0 5,0 0,0 0 1 2 3 4 5 Concluímos então que o número mais frequente de visitas é igual a 2, representando 25%. Ou seja, mais da metade dos chefes de família foi, no máximo, até duas vezes a uma consulta com um médico no último ano. Organização de dados: tabelas e gráficos112 Bioestatistica_LIVRO.indb 112 13/03/2018 09:16:41 ARAUJO, A. Gráficos: modelos prontos. 04 fev. 2011. Disponível em: <http://geomor- fologiacesc.blogspot.com.br/2011/02/graficos-modelos-prontos.html>. Acesso em: 26 out. 2017. Leituras recomendadas CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2007. FREUND, J. E. Estatística aplicada economicamente. 11. ed. Porto Alegre: Bookman, 2007. Referência Organização de dados: tabelas e gráficos113 Bioestatistica_LIVRO.indb 114 13/03/2018 09:16:42 Encerra aqui o trecho do livro disponibilizado para esta Unidade de Aprendizagem. Na Biblioteca Virtual da Instituição, você encontra a obra na íntegra. ESTATÍSTICA Ana Laura Bertelli Grams Identificação interna do documento D1VPS59MOG-U16J1H1 Medidas de posição: média, mediana e moda Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: � Calcular as medidas de posição: média, mediana e moda. � Escolher a medida de posição mais adequada. � Aplicar as medidas estatísticas a partir das definições. Introdução Após a coleta e organização dos dados de uma pesquisa, é fundamental que se faça a análise para futura tomada de decisão. A análise mais trivial de um conjunto de dados é feita por meio de medidas de posição. Neste capítulo, você reconhecerá as medidas de posição central, chamadas média, mediana e moda, identificando suas definições, caracte- rísticas e aplicações em conjuntos numéricos agrupados e não agrupados. Medidas de posição: média, mediana e moda Para análise das variáveis qualitativas, precisamos nos restringir apenas à sua distribuição de frequências, enquanto que, em sua análise, as variáveis quan- titativas permitem que algumas medidas que descrevem suas características sejam manipuladas e praticadas (BARBETTA; REIS; BORNIA, 2008). As medidas que estudaremos agora serão medidas deposição central. As medidas estatísticas informam características importantes da amostra, que geralmente são um rol com muitos dados difíceis de serem analisados quando apresentados todos juntos. Por isso, buscamos algumas medidas que os descrevem. As medidas de posição mais utilizadas são as de tendência central: média, mediana e moda. Identificação interna do documento D1VPS59MOG-U16J1H1 Essas medidas são chamadas de medidas de tendência central, pois cada uma delas tende a se dispor em torno dos valores que ocupam as posições centrais de um rol de dados. Além delas, temos as medidas de posição chamadas separatrizes, que são: quartil, decil e percentil. Média A média é definida como o centro de massa, ou o ponto de equilíbrio, do conjunto (MILONE, 2006). Entre as principais médias, destacamos a média aritmética. A média aritmética é calculada por meio da soma dos dados (quantitativos) do conjunto e da divisão da soma pela quantidade de dados do conjunto: x– = ∑i =1 xi n n onde xi representa os dados em questão (na posição 1 até n-ésima), e n a quantidade de dados do conjunto. Características da média 1. A média é afetada por todos os elementos do conjunto (para o seu cálculo, é preciso somar todos eles). Como consequência, ela se altera a cada mudança dos elementos do conjunto, e, ainda, valores de extre- mos, muito altos ou muito baixos, tendem a aumentá-la ou diminuí-la, respectivamente, de maneira bastante significativa. Sendo 30, 32, 44, 82 e 97 dados de uma amostra qualquer, sua média é obtida com x– = 30 + 32 + 44 + 82 + 97 5 = 57. Se qualquer dado for afetado por alguma mudança, a média também será afetada, especialmente se os extremos se alterarem: 2, 32, 44, 82, 97 →x– = 2 + 32 + 44 + 82 + 97 5 = 51,4 ou ainda: 30, 32, 44, 82 e 250 →x– = 30 + 32 + 44 + 82 + 250 5 = 87,6. Medidas de posição: média, mediana e moda2 Identificação interna do documento D1VPS59MOG-U16J1H1 2. A média apresenta propriedades algébricas de manipulação, que são: somando-se uma constante a todos os dados da amostra, a média é aumentada da mesma constante. A média dos valores 41, 75 e 64 é 41 + 75 + 64 3 = 60. Ao somarmos a constante 5 aos dados, temos 46, 80, 69, e a média dos novos valores é 46 + 80 + 69 3 = 65. 3. O valor da média estará sempre entre o maior e o menor valor do conjunto de dados e pode não corresponder a algum valor do próprio conjunto. Como, no conjunto anterior (41, 75, 64), a média é igual a 60, sendo assim, 41 < x– < 64 e, ainda, não é igual a nenhum dado do conjunto. Média de dados agrupados O conceito de média e suas características mantém-se para qualquer conjunto de dados. Contudo, o processo do cálculo pode variar, dependendo de como esses dados estão apresentados. O caso mais simples para encontrar o valor da média é em um rol de dados simplesmente ordenados (ou não), em que basta aplicarmos a equação que a define. Já em dados que são apresentados em uma distribuição de frequência, precisamos de uma etapa anterior, para então aplicarmos a mesma fórmula. Considere a tabela de distribuição de frequência no Quadro 1, relativa ao número de acidentes ocorridos com 30 motociclistas em uma empresa de entrega rápida. 3Medidas de posição: média, mediana e moda Identificação interna do documento D1VPS59MOG-U16J1H1 Número de acidentes (variável) Número de motociclistas (frequência) 1 13 2 5 3 9 4 1 5 2 Quadro 1. Número de acidentes com 10 motoristas de mototáxi As frequências dos acidentes indicam a intensidade deles, facilitando a apresentação das variáveis. Contudo, para o cálculo da média, precisamos ficar atentos a elas e não nos esquecer de que cada variável tem a sua quantidade indicada na coluna ao lado. O cálculo da média de acidentes por motociclista deve ser feito da seguinte maneira: x– = (13 ∙ 1) + (5 ∙ 2) + (9 ∙ 3) + (1 ∙ 4) + (2 ∙ 5) 13 + 5 + 9 + 1 + 2 = 2,133 onde cada acidente é multiplicado pela frequência em que ocorreram e a soma deles dividida pelo total de motociclistas na empresa. De maneira geral, a média em uma distribuição de frequência é calculada pela lei: x– = ∑ (xi · fi ) ∑ fi Ou seja, o somatório do produto entre a variável (xi) e a sua frequência correspondente a ( fi), divido pelo somatório das frequências (∑ fi ). Média de dados agrupados com intervalos de classe Além do formato do Quadro 1 para apresentação dos dados, podemos, ainda, expressá-los por meio de intervalos de classe, que se trata do agrupamento dos valores em intervalos. Essa prática é comumente utilizada em variáveis contínuas e quando cada valor tem uma baixa frequência, resultando, assim, em uma tabela com muitas linhas, que se torna inconveniente para análise. O Medidas de posição: média, mediana e moda4 Identificação interna do documento D1VPS59MOG-U16J1H1 Quadro 2 mostra um exemplo de distribuição de frequência com intervalos de classe. Estatura (variável) Número de alunos (frequência) 160 ⊢ 165 5 165 ⊢ 170 20 170 ⊢ 175 11 175 ⊢ 180 1 180 ⊢ 185 3 Quadro 2. Estatura (em cm) de 40 alunos de uma classe Por característica das distribuições de frequência com dados agrupados, ocultamos algumas informações anteriormente tidas nos dados brutos. Perceba que a tabela nos indica que cinco estudantes apresentam estatura entre 160 cm e 165 cm, porém não nos orienta para a altura exata de cada um deles. Para cálculo da média de dados apresentados dessa forma, precisamos assumir um único valor para esses intervalos de classe. Fizemos isso por meio do cálculo da própria média das classes. Para o exemplo anterior, teremos o Quadro 3. Estatura (variável) xi (média das classes) Número de alunos (fi) xi ∙ fi 160 ⊢ 165 160 + 165 2 = 162,5 5 812,5 165 ⊢ 170 167,5 20 3350 170 ⊢ 175 172,5 11 1897,5 175 ⊢ 180 177,5 1 177,5 180 ⊢ 185 182,5 3 547,5 6785 Quadro 3. Estatura (em cm) de 40 alunos de uma classe — inserção das colunas xi e xi ∙ fi para cálculo da média 5Medidas de posição: média, mediana e moda Identificação interna do documento D1VPS59MOG-U16J1H1 Note que, no Quadro 3, inserimos, além da média das classes, uma coluna com a multiplicação entre a variável e a frequência. Isso pode facilitar no cálculo da média. Contudo, é o mesmo que aplicarmos a seguinte lei: x– = ∑ (xi · fi ) ∑ fi x– = 812,5 + 3350 + 1897,5 + 177,5 + 547,5 40 = = 169,63 cm 6785 40 Concluímos, assim, que a média das estaturas entre os 40 alunos pesqui- sados é 169,63 cm. Mediana Outra medida de centro bastante utilizada é a mediana. Seu conceito é dado por: o valor que se encontra no centro de uma série ordenada de números. Ou seja, é o dado que divide o conjunto ordenado em dois subconjuntos de mesmo número de elementos (CRESPO, 2002). A posição da mediana é encontrada por n + 12 . Em um conjunto de dados não agrupados, como 8, 5, 14, 9, 56, 32, 23, no qual temos n = 7 dados, a posição da mediana é dada por 82 = 4, ou seja, na quarta posição. Contudo, antes de localizarmos o dado que se encontra na quarta posição, é preciso ordená-los segundo um critério preestabelecido, de ordem crescente, por exemplo. Sendo assim, temos 5, 8, 9, 14, 23, 32, 56, onde constatamos que a mediana é igual a 14. Em casos em que a quantidade de dados é par, teremos dois termos no centro da série. Assim, precisamos encontrar o ponto médio dos dois valores para determinarmos a mediana. Na série 2, 5, 8, 9, 14, 23, 32, 56, o quarto e o quinto termos são que dividem a série em dois subconjuntos com o mesmo número de elementos. Dessa forma, a mediana dessa é dada por 9 + 142 = 11,5. Perceba que a mediana, além de uma medida de tendência central, também é con- siderada separatriz, pois divide o conjunto de dados em duas partes com iguais quantidades de elementos. Medidas de posição: média, mediana e moda6 Identificação interna do documento D1VPS59MOG-U16J1H1 As separatrizes separam o conjunto de dados em grupos com o mesmo número de valores, os quartis dividem o conjunto em 4 (quatro) partes iguais,os decis em 10 (dez) e os percentis em 100 (cem). Moda A moda é geralmente a medida de tendência central mais simples de ser informada, pois exige apenas a observação dos dados existentes. Definimos moda como o valor que ocorre com maior frequência em um conjunto de dados. Ou seja, é o valor mais comum dentre todos do conjunto. No exemplo 2, 5, 8, 9, 14, 23, 32, 56, temos um conjunto em que todos os elementos têm a mesma frequência. Isso implica em um conjunto amodal, ou sem moda. Já a série de dados 2, 5, 8, 8, 8, 9, 9 14, 23, 32, 56 tem moda igual a 8, e a série 2, 5, 8, 8, 8, 9, 9 14, 23, 32, 56, 56, 56 tem duas modas: 8 e 56. Neste último caso, chamamos o conjunto de bimodal. Escolha da medida de posição mais adequada A escolha entre a média, a mediana e a moda depende dos fatores que elas afetam. É necessário conhecer suas propriedades com a finalidade de adequar a melhor medida a cada caso em estudo. Uma das características da média é sua sensibilidade a valores muito altos ou muito baixos do conjunto de dados, pois é uma medida que reflete cada valor do conjunto. Sendo assim, uma análise possível é: quando os valores extremos do conjunto de dados são consideravelmente dispersos dos de- mais, a média não é uma medida de posição indicada para análise, pois ela não representa adequadamente a maioria dos dados do conjunto. Por outro lado, a mediana é, de fato, insensível aos valores extremos do conjunto, podendo estes se alterarem, e, mesmo assim, a mediana se manter. Portanto, no caso citado, a indicação é a utilização da mediana como medida de posição mais adequada. Em contrapartida, a média é mais prática de ser calculada, visto que, para encontrar a mediana, é imprescindível a ordenação dos dados, o que acarreta 7Medidas de posição: média, mediana e moda Identificação interna do documento D1VPS59MOG-U16J1H1 em grande dificuldade quando o conjunto apresenta grande quantidade de dados, sobretudo quando não se utiliza de recursos tecnológicos para tal. A moda é geralmente um ponto isolado, mas de maior peso no conjunto de elementos. Sua característica é vantajosa sobre as demais, pois é sempre um valor típico, o qual tem maior quantidade de valores concentrados no mesmo ponto. Quando temos dados qualitativos, não podemos aplicar as medidas de posição média e mediana, por motivos óbvios. Em contrapartida, a moda é uma medida de posição que pode ser obtida mesmo em conjuntos de dados qualitativos. Aplicação a partir das definições Nesta etapa de estudo, aplicaremos os conceitos estudados anteriormente em alguns exemplos de atividades, a fim de utilizar as ferramentas estatísticas para o desenvolvimento do raciocínio lógico, enquanto descobrimos a melhor maneira para encontrar as soluções. Em um conjunto com 15 dados, a média aritmética é igual a 9. Depois de uma vistoria detalhada nos dados, descobriu-se que alguns eram inconsistentes e precisavam ser desconsiderados. Assim, os números 34, 27, 14 foram retirados. Qual será a nova média do conjunto? Solução: Temos que o primeiro conjunto tinha média igual a: x– = x1 + ... x15 15 = 9 Assim, a soma de todos os 15 elementos do conjunto de dados é dada por: x1 + ... x15 = 9 · 15 = 135 Medidas de posição: média, mediana e moda8 Identificação interna do documento D1VPS59MOG-U16J1H1 Com a retirada de três elementos, passamos a ter 12 dados, e sua soma representada por: x1 + ... x12 = 135 – 34 – 27 – 14 = 60 Aplicando a definição de média, temos: x– = x1 + ... x12 12 = 9 60 12 = Aplicou-se uma prova para 80 alunos da turma da disciplina de Estatística. Porém, como o espaço físico era pequeno, dividiu-se a turma em duas partes, que realizaram a prova em dias diferentes. No primeiro dia, 35 alunos realizaram a avaliação, e a média desse grupo foi 9,0. No segundo dia, aplicou-se a prova para os demais, que obtiveram média igual a 7,0. Qual foi a média da turma toda? Solução: Podemos representar a média da turma do primeiro dia como: x— = x1 + ... x35 35 = 91 bem como a média da segunda turma é: x— = x1 + ... x45 45 = 72 x1 + ... x35 = 9 · 35 = 315 x1 + ... x45 = 7 · 45 = 315 x1 + ... x80 = 315 + 315 = 630 Portanto, a média final é igual a: x— = x1 + ... x80 80 = 7,87f 630 80 = 9Medidas de posição: média, mediana e moda Identificação interna do documento D1VPS59MOG-U16J1H1 Uma loja de roupas está promovendo um bazar de suas peças e fez a seguinte promoção: � 2 blusas custam R$ 89,00 cada; � 4 blusas custam R$ 68,00 cada; � 6 blusas custam R$ 57,00 cada. Qual é o preço médio das blusas desta loja no seu bazar? Solução: Os valores expostos na promoção nos fornecem a seguinte relação: x– = (2 · 89,00) + (4 · 68,00) + (6 · 57,00) 12 = = 66,00 792 12 Concluímos, assim, que o preço médio de cada blusa é igual a R$ 66,00. Os próximos exemplos da aplicação da média são exercícios adaptados de concursos de vestibular, que mostram variações no raciocínio utilizado para empregar o cálculo da média. (FUVEST) Sabe-se que a média aritmética de 5 dados, sendo esses números inteiros distintos, estritamente positivos, é igual a 16. O maior valor existente entre esses dados é igual a: a) 16 b) 20 c) 50 d) 70 e) 100 Solução: Como indicado, o conjunto tem cinco elementos. Assim, da mesma maneira das soluções anteriores, temos: x– = x1 + ... x5 5 = 16 Medidas de posição: média, mediana e moda10 Identificação interna do documento D1VPS59MOG-U16J1H1 Portanto, a soma de todos os 5 elementos do conjunto de dados é dada por: x1 + ... x5 = 16 · 5 = 80 Então, para descobrirmos o maior valor possível entre os 5 dados, assumiremos os 4 outros valores como os menores possíveis, ou seja: 1 + 2 + 3 + 4 + x = 80 Sendo assim, o maior valor possível do conjunto de dados é: x = 80 – 1 – 2 – 3 – 4 x = 70 Resposta: letra D. (FUVEST) Numa classe com vinte alunos, as notas do exame final podiam variar de 0 a 100, e a nota mínima para aprovação era 70. Realizado o exame, verificou-se que 8 alunos foram reprovados. A média aritmética das notas desses oito alunos foi 65, enquanto que a média dos aprovados foi 77. Após a divulgação dos resultados, o professor verificou que uma questão havia sido mal formulada e decidiu atribuir 5 pontos a mais para todos os alunos. Com essa decisão, a média dos aprovados passou a ser 80, e a dos reprovados, 68,8. a) Calcule a média aritmética das notas da classe toda antes da atribuição dos cinco pontos extras. b) Com a atribuição dos cinco pontos extras, quantos alunos, inicialmente reprovados, atingiram nota para a aprovação? Solução: a) Com os dados informados no problema, temos: x– reprovados = x1 + ... x8 8 = 65 x– aprovados = x1 + ... x12 12 = 77 x– total = (x1 + ... x8) + (x1 + ... x12) 20 = 520 + 924 20 = 72,2 A média das notas da classe antes da atribuição dos cinco pontos extras era de 72,2. 11Medidas de posição: média, mediana e moda Identificação interna do documento D1VPS59MOG-U16J1H1 b) A nova média de toda a turma, após a atribuição dos cinco pontos por aluno, é: x1 + ... x5 = 16 · 5 = 80 x– = 520 + 924 + (5 · 20) 20 = 1544 20 = 77,2 Com a atribuição dos cinco pontos, é possível que alguma quantidade de alunos tenha sido aprovada — chamemos essa quantidade de A. Sendo assim, a nova quantidade de alunos aprovados é 12 + A, e de alunos reprovados, 8 – A. Temos, do enunciado, que a nova média dos aprovados é 80, e dos reprovados, 68,8. Então: 77,2 = (12 + A) 80 + (8 – A) 68,8 20 Resolvendo a equação, temos que A = 3. Assim, 3 alunos foram aprovados após a atribuição dos 5 pontos. BARBETTA, P. A.; REIS, M. M.; BORNIA, A. C. Estatística para cursos de engenharia e infor- mática. 2. ed. São Paulo: Atlas, 2008. CRESPO, A. A. Estatística fácil. 17. ed. São Paulo: Saraiva, 2002. MILONE, G. Estatística: geral e aplicada. São Paulo: Thomson Learning, 2006. Leitura recomendada BECKER, J. L. Estatística básica: transformando dados em informação. Porto Alegre: Bookman, 2015. Medidas de posição: média, medianae moda12 Identificação interna do documento D1VPS59MOG-U16J1H1 Identificação interna do documento D1VPS59MOG-U16J1H1 Identificação interna do documento D1VPS59MOG-U16J1H1 Identificação interna do documento D1VPS59MOG-U16J1H1 Nome do arquivo: C03_Medidas_posicao_media_mediana_moda_20230309111416531 172.pdf Data de vinculação à solicitação: 09/03/2023 11:14 Aplicativo: 655458 METROLOGIA OBJETIVOS DE APRENDIZAGEM > Reconhecer medidas de dispersão. > Diferenciar medidas de dispersão e medidas de tendência central. > Calcular amplitude, desvio-padrão, variância e coeficiente de variação de um conjunto de dados. Introdução Cada vez mais recebemos uma gama de informações advindas de meios de comunicação, mídias sociais, leituras, publicidade, etc. E assim como essa informação é importante para nos inserirmos no meio em que vivemos, também se torna fundamental desenvolver a habilidade de lê-la. Ou seja, o domínio de métodos quantitativos como as medidas de dispersão e sua interpretação é es- sencial para que tenhamos uma visão mais clara dos fatos e dados observados. Nesse contexto, espera-se, por meio deste capítulo, apresentar elementos que fundamentem as interpretações de dados que forem analisados nas mais diversas áreas do conhecimento, permitindo que o leitor conheça formas de cálculo simples, práticas e relevantes para o seu cotidiano. Estatística aplicada: medidas de dispersão Cristiane da Silva Neste capítulo, você vai conhecer as medidas de dispersão. Inicia-se apre- sentando os conceitos de dispersão, variação e amplitude de forma mais abran- gente; na segunda seção, aprofundam-se as definições, diferenciando, ainda, as medidas de dispersão das medidas de tendência central, e destacam-se as características de cada uma delas. Por fim, evidencia-se como calcular algumas das principais medidas de dispersão por meio de um software livre. A variabilidade de um conjunto de dados Sempre que iniciamos uma pesquisa, nos interessa conhecer a variabilidade do conjunto de dados em análise. Isso porque detectar variabilidades nos leva a buscar explicações para elas — fazer conexões, tentar compreender o que está causando esse efeito de variabilidade. Para ficar mais claro, pense em uma pandemia, como a da Covid-19. O que causou a variabilidade no número de mortes pela doença? Será que foi o comportamento das pessoas? A elabo- ração de vacinas e o avanço do processo de vacinação? Foram as mutações da doença? As políticas públicas adotadas ou não? Houve alguma relação com o sexo, a idade, a escolaridade, a renda ou a região em que reside a população? Bom, aqui parece haver alguns elementos relevantes para tentar compreender a variabilidade observada, bem como o comportamento da doença ao longo do tempo. Becker (2015) destaca que se não houver variabilidade em um sentido absoluto, não é possível detectar determinado fenômeno. Algumas das medidas importantes de variação são a amplitude, o desvio- -padrão, a variância e o coeficiente de variação. Para além de encontrar seus valores numéricos, é fundamental desenvolver a habilidade de interpretar e compreender esses valores (TRIOLA, 2017). Uma ilustração visual da variação pode ser observada na Figura 1. Figura 1. Gráficos de dispersão da renda das famílias. R$0,00 R$500,00 R$1.000,00 R$1.500,00 R$2.000,00 R$2.500,00 R$3.000,00 0 2 4 6 8 10 12 Renda das famílias do município A R$0,00 R$500,00 R$1.000,00 R$1.500,00 R$2.000,00 R$2.500,00 R$3.000,00 0 2 4 6 8 10 12 Renda das famílias do município B A B Estatística aplicada: medidas de dispersão2 Na Figura 1a são apresentadas as rendas de dez famílias do município A e, na Figura 1b, as rendas de dez famílias do município B. É possível observar que a renda das famílias do município B tem mais variação do que a renda das famílias do município A. O gráfico à direita mostra mais espalhamento do que o gráfico à esquerda. Essa característica de espalhamento — ou variação, ou dispersão — é tão importante que a medimos com números. As medidas de dispersão indicam o grau de variabilidade dos dados ob- servados. Em outras palavras, o quanto os valores observados são próximos ou distantes entre si. A amplitude total é a mais simples dessas medidas, pois ela é a diferença entre o maior e o menor valor observado (KUYVEN, 2010). Um exemplo dessa medida pode ser a amplitude térmica, a variação que costuma ocorrer ao longo de um dia na temperatura. O desvio-padrão é a medida de dispersão mais utilizada, porque leva em consideração a totalidade dos valores da variável em estudo. O desvio-padrão considera os desvios em torno da média aritmética, e a sua fórmula básica pode ser expressa como a raiz quadrada da média aritmética dos quadrados dos desvios (KUYVEN, 2010). É importante mencionar que as fórmulas de cál- culo são diferentes (em seu denominador) quando se trata de desvio-padrão amostral ou populacional. Triola (2017) explica que o desvio-padrão é uma medida de quanto os valores de dados se afastam da média. A variância, por sua vez, é o desvio-padrão elevado ao quadrado. É uma medida de pouca utilidade para descrever um conjunto de dados, mas é muito importante na inferência estatística e em combinações de amostras (KUYVEN, 2010; TRIOLA, 2017). Conforme Triola (2017), a variância tem a desvantagem de usar unidades diferentes das unidades dos dados originais, o que torna difícil entender como ela se relaciona com o conjunto de dados original. Para compreender melhor o desvio-padrão, é importante destacar que, ao se medir a variação em um conjunto de dados amostrais, faz sentido começar com as quantidades individuais pelas quais cada valor se afasta da média. Para um valor particular x, a quantidade de desvio é x – x̅ , que é a diferença entre o valor individual x e a média. Para obter uma estatística que meça a variação, é preciso evitar o cancelamento de números positivos e negativos. Sendo assim, deve-se somar os valores absolutos como em ∑|x – x̅|. Se for encontrada a média correspondente a essa soma, obtêm-se o desvio médio absoluto, que é a distância média dos dados até a média (TRIOLA, 2017). Estatística aplicada: medidas de dispersão 3 No entanto, como o desvio médio absoluto requer o uso de valores ab- solutos, ele usa uma operação que não é algébrica, o que cria dificuldades nos métodos de inferência estatística. Outro fator relevante é que ele é um estimador viesado, o que significa dizer que, quando encontrados os desvios médios absolutos para amostras não se tende a atingir o desvio médio abso- luto da população. Além disso, como o desvio-padrão baseia-se em uma raiz quadrada de uma soma de quadrados, se assemelha às fórmulas de distância encontradas na álgebra, o que é mais vantajoso (TRIOLA, 2017). Outra medida que merece destaque é a amplitude semi-interquartílica, também conhecida como desvio quartílico, que é indicada por Q e é definida por: = 3 − 1 2 em que Q1 e Q3 são o primeiro e o terceiro quartis. A amplitude interquartílica Q3 – Q1 é usada algumas vezes, mas a amplitude semi-interquartílica é mais comum como medida de dispersão (SPIEGEL; STEPHENS, 2009). Já a amplitude entre os percentis 10 e 90 é definida por P90 – P10, em que P10 e P90 são o 10° e 90° percentis referentes aos dados. A semiamplitude percentílica entre 10 e 90, 1 2 (P90 – P10), também pode ser usada, mas normal- mente isso não ocorre (SPIEGEL; STEPHENS, 2009). Nesse contexto, a regra empírica ajuda a interpretar o valor de um desvio- -padrão. Conforme Triola (2017), essa regra estabelece que, para conjuntos de dados que tenham uma distribuição aproximadamente normal, aplicam-se as seguintes propriedades: i) cerca de 68% de todos os valores ficam a até um desvio-padrão da média; ii) cerca de 95% de todos os valores ficam a até dois desvios-padrão da média; e iii) cerca de 99,7% de todos os valores ficam a até três desvios-padrão da média, como mostra a Figura 2. Estatísticaaplicada: medidas de dispersão4 Figura 2. Regra empírica. Fonte: Adaptada de Triola (2017). Cabe ressaltar que quando comparada a variação em dois conjuntos de dados diferentes, os desvios-padrão só devem ser comparados se os dois conjuntos de dados usarem as mesmas escala e unidades de medida e tiverem, aproximadamente, a mesma média. Quando as médias forem diferentes ou as amostras usarem escalas ou unidades de medida diferentes, utiliza-se o coeficiente de variação (TRIOLA, 2017). Além de contornar esses problemas, para caracterizar a dispersão ou a variabilidade dos dados em termos relativos ao seu valor médio, utiliza-se o coeficiente de variação. Você pode saber mais sobre as medidas de dispersão consultando o Capítulo 4 da obra Estatística, de Spiegel e Stephens (2009). Nesta seção, você conheceu os conceitos de variação, dispersão, ampli- tude entre percentis 10 e 90 e a lógica do cálculo do desvio-padrão. As ideias apresentadas buscaram estabelecer conexão com o cotidiano por meio de situações com as quais nos deparamos. A seguir, você aprofundará o estudo ao diferenciar as medidas de tendência central das medidas de dispersão. Estatística aplicada: medidas de dispersão 5 Medidas de tendência central e de dispersão Para conhecer as fórmulas matemáticas das medidas de tendência central e de dispersão, é importante primeiramente diferenciá-las. Conforme Kuyven (2010), as medidas de tendência central indicam o padrão de respostas de uma variável e mostram o valor que se localiza no meio de um conjunto de dados ordenados. Já as medidas de dispersão informam o quão distantes estão os dados uns dos outros. Dentre as medidas de tendência central que apresentaremos estão a média, a mediana e a moda. Dentre as medidas de dispersão estão a amplitude total, o desvio-padrão, a variância e o coeficiente de variação. Conforme Larson e Farber (2015), a média de um conjunto de dados é dada pela soma dos valores dos dados dividida pelo número de observa- ções. Downing e Clark (2010) apresentam a fórmula para o cálculo da média, considerando n números x1, x2, x3, …, xn. A média amostral é expressa pelo símbolo X̅ (enquanto a média populacional é expressa por μ) e tem a seguinte representação matemática: = 1 + 2 + 3 + ⋯ + = ∑ =1 (1) Já a mediana é o ponto, ou elemento, a meio caminho dos dados, ou seja, metade dos números está acima dela e metade abaixo. Um procedimento importante para o cálculo da mediana é ordenar a lista de valores (DOWNING; CLARK, 2010). Nesse contexto, Kuyven (2010) define a mediana como um valor que está no meio dos dados quando o conjunto de dados está ordenado. A mediana indica o centro de um conjunto de dados ordenado, de modo que, dividido em duas partes com quantidades iguais de valores, tem-se o resultado da mediana. Havendo no conjunto de dados um número ímpar de observações, a mediana é o elemento do meio; havendo um número par de observações, a mediana é a média dos dois elementos que ocupam as posições centrais. Existem duas fórmulas para encontrar a posição da mediana, que são muito úteis quando o conjunto de dados é extenso. Observe: Estatística aplicada: medidas de dispersão6 Se n for ímpar: = ( )+1 2 (2) Se n for par: = 2 + 2 +1 2 ( () ) (3) onde n é o tamanho da amostra e X é a variável de interesse no estudo. A moda é caracterizada pelo valor que ocorre com maior frequência. Ha- vendo mais de um valor nessas condições, todos eles serão denominados modas. Em outras palavras, uma distribuição pode ter mais do que uma moda; no caso em que houver duas modas, esta será chamada de distribuição bimodal (DOWNING; CLARK, 2010; LARSON; FARBER, 2015). A amplitude total é uma medida de dispersão. O termo “dispersão” indica o grau de afastamento de um conjunto de números em relação à sua média. Uma das maneiras de medir a dispersão consiste simplesmente em fazer a diferença entre o maior e o menor valor. Essa grandeza é denominada am- plitude (DOWNING; CLARK, 2010). O desvio-padrão mede a variação dos dados com relação à média, tendo a mesma unidade de medida que o conjunto de dados. Ele é sempre maior ou igual a zero; nesse caso, igual a zero significa que o conjunto de dados não apresenta variação, ou seja, todos os elementos têm o mesmo valor. À medida que os valores se afastam da média, mais dispersos são os dados, portanto, maior será o desvio-padrão (LARSON; FARBER, 2015). A fórmula do desvio-padrão amostral é dada por: = ∑( − )2 − 1 (4) Dito de outra maneira, essa fórmula indica a realização dos seguintes passos. 1. Calcular a média do conjunto de dados amostrais. 2. Subtrair a média de cada valor de x. 3. Elevar ao quadrado cada resultado do passo 2. 4. Somar todos os resultados do passo 3. Estatística aplicada: medidas de dispersão 7 5. Dividir a soma do passo 4 por (n – 1), quando os dados forem amostrais. Observação: para dados populacionais divide-se a soma por N. 6. Extrair a raiz quadrada do resultado da soma. O cálculo do desvio-padrão amostral difere do desvio-padrão popula- cional. No caso do desvio-padrão amostral, depois de encontrar todos os valores individuais (X – X̅ )², eles são combinados de acordo com sua soma e, a seguir, divididos por n – 1, porque há apenas n – 1 valores independentes. Dada uma média de n elementos, apenas n – 1 deles podem ser associados a qualquer número antes que o último valor seja determinado. A divisão por n – 1 faz com que a variância amostral s2 tenda para o valor da variância populacional σ2, ao passo que a divisão apenas por N (como é o caso do desvio-padrão popu- lacional) faz com que a variância amostral s2 subestime a variância populacional σ2 (TRIOLA, 2017). A variância é o desvio-padrão elevado ao quadrado, sendo simbolizada por σ2 quando se refere à população e por s2 quando se refere à amostra. A variância tem pouca utilidade como estatística descritiva, porém é muito importante na inferência estatística e em combinações de amostras. A fórmula da variância amostral é dada por: 2 = ∑( − )2 − 1 (5) O coeficiente de variação é a razão entre o desvio-padrão e a média refe- rentes a dados de uma mesma série. Sua fórmula, em percentual, é dada por: = · 100 para populações (6) = · 100 para amostras (7) Nesta seção, vimos a diferença entre medida de tendência central e medida de dispersão. Conhecemos as principais delas em seus conceitos, fórmulas e pontos de atenção. A seguir, aprofundaremos o estudo das medidas de dispersão especialmente no que se refere ao cálculo da amplitude, do desvio- -padrão, da variância e do coeficiente de variação de um conjunto de dados. Estatística aplicada: medidas de dispersão8 Conhecendo o comportamento dos dados Como vimos, para conhecer o comportamento de um conjunto de dados faze- mos uso das medidas estatísticas. Nosso enfoque aqui será para as medidas de dispersão: amplitude, desvio-padrão, variância e coeficiente de variação. Os dados utilizados são fictícios e referem-se a uma amostra da renda de dez famílias dos municípios A e B. O Quadro 1 apresenta o conjunto de dados. Quadro 1. Renda das famílias Renda das famílias do município A Renda das famílias do município B R$2.870,00 R$1.100,00 R$2.800,00 R$2.400,00 R$2.910,00 R$1.150,00 R$2.905,00 R$1.200,00 R$2.890,00 R$1.800,00 R$2.850,00 R$2.500,00 R$2.905,00 R$2.300,00 R$2.890,00 R$1.300,00 R$2.890,00 R$2.600,00 R$2.820,00 R$900,00 Para calcular as medidas de dispersão, será utilizado o Excel. Como a amplitude total não possui uma fórmula específica para o seu cálculo no Excel, buscamos, por meio das funções do Excel, quais são os valores máximo e mínimo do conjunto de dados. Para encontrar o valor máximo utiliza-se a função = MÁXIMO para cada conjunto de dados separadamente, ou seja, selecionam-se os dados da renda das famílias do município A e depois os dados da renda das famílias do município B, como mostra a Figura 3. Estatística aplicada: medidas de dispersão 9 Figura 3. Encontrandoo valor máximo dos conjuntos de dados. O cálculo do valor mínimo é análogo, ou seja, utiliza-se a função = MÍNIMO para cada conjunto de dados separadamente, como mostra a Figura 4. Figura 4. Encontrando o valor mínimo dos conjuntos de dados. Estatística aplicada: medidas de dispersão10 Agora é possível calcular a amplitude dos dados, que será a diferença entre o maior valor do conjunto de dados e o menor valor do mesmo conjunto, como mostra a Figura 5. Figura 5. Calculando a amplitude total dos conjuntos de dados. Com isso, constata-se que a amplitude da renda das famílias do município A — que é igual a R$ 110,00 — é menor do que a observada no município B — que é de R$ 1.700,00. Isso significa dizer que existe uma grande variação no município B comparativamente ao A; em outras palavras, os valores das rendas das famílias do município B são mais distantes umas das outras. Seguimos com o cálculo do desvio-padrão para cada conjunto de dados (A e B). O cálculo do desvio-padrão é realizado utilizando a função = DESVPAD.A, o que indica que será calculado o desvio-padrão amostral; isso está indicado por “(.A)” na fórmula. Quando o estudo envolve dados de toda a população, deve-se escolher a opção DESVPAD.P. Observe a Figura 6. Estatística aplicada: medidas de dispersão 11 Figura 6. Calculando o desvio-padrão dos conjuntos de dados. O desvio-padrão nos permite observar que há um afastamento de R$ 37,95 na renda das famílias do município A em relação à média e um afastamento de R$ 668,02 na renda das famílias do município B em relação à média. A variância é encontrada utilizando-se a função = VAR.A, o que indica que será calculada a variância amostral, indicado por “(.A)” na fórmula. Quando o estudo envolve dados de toda a população, deve-se escolher a opção VAR.P. Observe a Figura 7. A interpretação da variância absoluta não tem muito sentido prático, por se tratar de uma medida quadrática. Isso pode ser observado pelos resultados retornados pelo Excel, sendo R$ 1.440,00 a variância da renda das famílias do município A e R$ 446.250,00 a variância da renda das famílias do município B. Estatística aplicada: medidas de dispersão12 Figura 7. Calculando a variância dos conjuntos de dados. Assim como a amplitude total, o coeficiente de variação também não possui uma fórmula específica para o seu cálculo no Excel, mas é sabido que ele é calculado pela divisão do desvio-padrão pela média do conjunto de dados e, por fim, multiplicado por 100 para ter a resposta em percentual, como mostra a Figura 8. Figura 8. Calculando o coeficiente de variação dos conjuntos de dados. Estatística aplicada: medidas de dispersão 13 O coeficiente de variação analisa a dispersão em termos relativos, por isso é dado em percentual. Quanto menor for o valor do coeficiente de variação, mais homogêneos serão os dados, ou seja, menor será a dispersão em torno da média. Analisando a renda das famílias do município A, verifica-se que há baixa dispersão nas rendas; os dados são homogêneos, pois o valor retor- nado foi de 1,32% para o CV. Já no caso da renda das famílias do município B, observa-se alta dispersão, e os dados são heterogêneos, pois o valor retornado foi de 38,73% para o CV. Você pode saber mais sobre outro software utilizado para calcular as medidas de dispersão consultando o Capítulo 3 da obra Método quantitativo com o uso de software, de Raupp (2012). Nesta seção, você percebeu a aplicabilidade dos conceitos teóricos estu- dados nas duas primeiras seções, especialmente no que se refere às medidas de dispersão. Pode, assim, constatar que é possível realizar os cálculos de forma mais eficiente e rápida por meio do Excel, bem como identificar a interpretação prática das medidas estatísticas. Esta obra apresentou técnicas importantes para a atividade profissional nas mais diversas áreas do conhecimento, pois a estatística está presente em tudo o que nos acompanha diariamente. Para compreender o mundo que nos cerca precisamos entender o que as informações que nos chegam estão efetivamente expressando. É claro que o assunto não se esgota aqui, por isso sugere-se a continuidade dos estudos. Referências BECKER, J. L. Estatística básica: transformando dados em informação. Porto Alegre: Bookman, 2015. (Série Métodos de Pesquisa). E-book. DOWNING, D.; CLARK, J. Estatística aplicada. 2. ed. São Paulo: Saraiva, 2010. KUYVEN, P. S. Raciocínio lógico e métodos quantitativos. São Leopoldo: Unisinos, 2010. Estatística aplicada: medidas de dispersão14 LARSON, R.; FARBER, B. Estatística aplicada. São Paulo: Pearson, 2015. SPIEGEL, M. R.; STEPHENS, L. J. Estatística. 4. ed. Porto Alegre: Bookman, 2009. (Coleção Schaum). E-book. TRIOLA, M. F. Introdução à estatística. 12. ed. Rio de Janeiro: LTC, 2017. Leitura recomendada RAUPP, C. A. F. Método quantitativo com o uso de software. São Leopoldo: Unisinos, 2012. Estatística aplicada: medidas de dispersão 15
Compartilhar