Baixe o app para aproveitar ainda mais
Prévia do material em texto
Medidas de posição e medidas de dispersão APRESENTAÇÃO Quando se tem um conjunto de dados, é preciso realizar alguns resumos numéricos para que se possa verificar melhor seu comportamento. Para isso, são utilizadas análises descritivas de dado s. Quando temos dados de variáveis numéricas, podemos calcular as medidas de posição que indic am onde a maioria dos dados se concentra e as medidas de variabilidade que informam a dispers ão dos dados. Nesta Unidade de Aprendizagem, você verá as medidas de posição e as medidas de variabilidad e e aprenderá suas aplicações, sua forma de calcular e exemplos. Bons estudos. Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados: Definir as medidas de posição, média, moda e mediana.• Diferenciar as medidas de amplitude de variação, variância, desvio padrão, coeficiente de variação e amplitude entre quartis. • Resolver problemas aplicados envolvendo medidas de posição e dispersão.• DESAFIO Muitas vezes, é preciso verificar se existe homogeneidade na produção de um fornecedor de grã os, pois é necessário que se tenha uma previsão mais realista do que será entregue com base na média dos pesos das sacas entregues. Indique qual dos dois fornecedores tem a entrega de produção mais homogênea. INFOGRÁFICO Diariamente, lida-se com um grande número de dados. Muitas vezes, é preciso tomar decisões c om base neles. Porém, os dados brutos não têm muito a apresentar se não forem tratados. O ponto de partida para começar a entender os dados é a análise descritiva dos dados. Nessa eta pa, têm-se as medidas numéricas descritivas, que compreendem as medidas de posição e de tend ência central. Neste Infográfico, entenda quem elas são e para que servem. CONTEÚDO DO LIVRO Em estatística, iniciamos as análises de dados quantitativos ou qualitativos por uma análise desc ritiva de dados. Para dados quantitativos, pode-se fazer uso de medidas de posição e de medidas de variabilidade. No capítulo Medidas de posição e medidas de dispersão, da obra Estatística e experimentação n a agronomia, base teórica desta Unidade de Aprendizagem, você entenderá como usar e calcular as medidas de posição, que indicam onde os dados estão mais concentrados, e as medidas de var iabilidade, que indicam a dispersão de um conjunto de dados numéricos. Boa leitura. ESTATÍSTICA E EXPERIMENTAÇÃO NA AGRONOMIA OBJETIVOS DE APRENDIZAGEM > Definir as medidas de posição, média, moda e mediana. > Diferenciar as medidas de amplitude de variação, variância, desvio-padrão, coeficiente de variação e amplitude entre quartis. > Resolver problemas aplicados envolvendo medidas de posição e dispersão. Introdução Neste capítulo, você conhecerá as técnicas de análise descritiva de dados, bem como verá para qual finalidade serve cada uma delas e suas aplicações. Além disso, conhecerá as ferramentas de resumo de dados. Com esse conteúdo, você estará preparado para realizar resumos numéricos de variáveis quantitativas, seja em uma mostra, seja em uma população. Medidas de posição As medidas de posição, também chamadas de medidas de tendência central, são calculadas com o intuito de representar o conjunto de dados com um único número. Os dados podem, ainda, ser representados por tabelas, gráficos ou intervalos. As medidas de posição podem ser calculadas para dados amos- trais e para dados populacionais, podendo ser divididas em: estimativa (ou estatística), quando esse resumo numérico é calculado com base em dados de uma amostragem; e parâmetro, quando o resumo é calculado com base em dados de um censo. Medidas de posição e medidas de dispersão Juliane Silveira Freire da Silva Em geral, as medidas de posição mais utilizadas são a média aritmética (ou simplesmente média), a moda e a mediana. Contudo, é possível calcular outras médias, como a média ponderada e a média geométrica. A seguir, serão descritas a média, a moda e a mediana. Média A média é a medida de posição mais popular e utilizada entre as medidas apresentadas neste capítulo. A média aritmética é calculada somando-se todos os valores da distribuição dos dados e dividindo-se o resultado pela quantidade de elementos. Obviamente, a média é calculada com dados nu- méricos, ou seja, com variáveis quantitativas. Média amostral: Média populacional: onde: � são, respectivamente, a média amostral e a média populacional; � xi e Xi são, respectivamente, cada um dos n elementos da amostra e cada um dos N elementos da população; � n e N são, respectivamente, o tamanho da amostra e o tamanho da população. Essas fórmulas são utilizadas quando os dados estão dispostos em rol. Quando os dados estiverem dispostos em uma tabela de distribuição de frequências por ponto, faz-se necessário utilizar a frequência de cada um dos valores da distribuição de dados. Média amostral para dados dispostos em uma tabela de distribuição de frequências por intervalos: Medidas de posição e medidas de dispersão2 Média populacional para dados dispostos em uma tabela de distribuição de frequências por intervalos: Dados em rol são os dados coletados e ordenados de forma crescente, mas que ainda não foram agrupados ou analisados. A média aritmética é uma média com a qual a maioria de nós está fami- liarizada. A média é afetada por todos os itens da amostra. Ela é o ponto de equilíbrio ou o centro de massa (ou, ainda, o centro de gravidade) da distribuição se consideramos o eixo X uma barra de equilíbrio e cada item dos dados um peso físico (DOANE, 2014). Mediana A mediana (Figura 1) é o valor central de um conjunto de dados, portanto, ela é o valor que divide a distribuição de dados ao meio, em que 50% das informações será menor ou igual à mediana e a outra metade será maior ou igual a ela. Logo, é fundamental que os dados estejam ordenados de forma crescente ou decrescente para que se encontre a mediana. Figura 1. Ilustração da mediana. Fonte: Doane (2014, p. 115). Medidas de posição e medidas de dispersão 3 Como é possível observar na Figura 1, a posição da mediana depende de se tamanho da amostra ou população é um número par ou ímpar. No caso de um número de elementos ímpar, a mediana será o próprio valor central, ao passo que, no caso de um número de elementos par, a mediana será a média dos dois valores centrais da distribuição de dados. As fórmulas da mediana indicam a posição que o valor mediano ocupa. Após calcular a posição, faz-se necessário verificar qual valor ocupa a posição da mediana. Posição da mediana para n ímpar: Posição da mediana para n par: O cálculo para encontrar a posição da mediana é o mesmo tanto para os dados em rol quanto para os dados em uma tabela de distribuição de frequências por ponto. A mediana é utilizada para evitar a possibilidade de sermos enga- nados por um ou alguns valores muito pequenos ou muito grandes. Ocasionalmente, descrevemos o “meio” ou “centro” de um conjunto de dados com outras medidas estatísticas que não a média. Uma dessas medidas, a mediana de n valores, requer que, primeiro, ordenemos os dados de acordo com o seu tamanho (FREUND, 2007). Moda A moda é o valor (ou valores) mais frequente de uma distribuição de dados. Entretanto, existe a possibilidade de a moda de um conjunto de dados não existir, sendo este conjunto denominado amodal. Do mesmo modo, um con- junto pode ter uma moda, duas modas (bimodal) ou mais de duas modas (polimodal). Das três medidas de posição apresentadas — média, mediana e moda —, a moda é a medida menos poderosa. Medidas de posição e medidas de dispersão4 Relação entre média, moda e mediana A Figura 2 apresenta o comportamento gráfico dos dados de acordo com os seus valores de média, moda e mediana. Uma distribuição é dita simétrica quando as três medidas de posição coincidem, ou seja, média = mediana = moda. De modo inverso, uma distribuição é dita assimétrica quando as três medidas de posição não coincidirem. A distribuição será assimétricapositiva (ou assimétrica à direita) se a média for maior do que a mediana, ao passo que será assimétrica negativa (ou assimétrica à esquerda) se a média for menor do que a mediana. A assimetria é dada com a relação entre média e mediana, pois, em algumas situações, pode-se ou não ter uma ou mais modas. Figura 2. Relações entre média, moda e mediana. Fonte: Kazmier (2008, p. 53). Considerando-se o uso dessas medidas de representação de dados popu- lacionais, o valor da moda indica onde estão localizados a maioria dos valores observados, como o salário por hora em uma companhia. Assim, ela pode ser útil como medida descritiva para um grupo da população, mas somente se existir uma moda bem definida. Em contrapartida, a mediana é sempre uma excelente medida que representa o nível típico dos valores observados, assim como os salários em uma população. Isso é verdadeiro independentemente da existência de mais de uma moda ou de se a distribuição da população é simétrica ou assimétrica. A falta de simetria não é um problema especial, pois a mediana dos salários, por exemplo, é sempre o salário da “pessoa central” quando os salários estão listados em ordem de magnitude. A média aritmética também é um excelente valor representativo para uma população, mas somente se a população for simétrica. Para dados não simétricos, os valores extremos (p. ex., alguns salários muito elevados de técnicos especialistas) servirão para distorcer Medidas de posição e medidas de dispersão 5 o valor da média como um valor representativo. Dessa forma, a mediana é geralmente a melhor medida de posição dos dados para descrever os dados de uma população (KAZMIER, 2008). Medidas de variabilidade As medidas de variabilidade, também chamadas de medidas de dispersão, medem o quanto os dados estão dispersos em relação a uma medida de posição ou quão próximos dessa medida eles se concentram. Uma característica da maioria dos conjuntos de dados é que os valores não são todos iguais entre si; de fato, a extensão de sua diferença ou variabilidade é de fundamental importância para a estatística (FREUND, 2007). A seguir, serão apresentados a amplitude total dos dados, a variância, o desvio-padrão, o coeficiente de variação e a amplitude interquartílica. Amplitude A medida de variabilidade mais simples é a amplitude total dos dados, em que se observa o maior e o menor valor de um conjunto de dados. Ela é considerada a medida mais simples porque leva em consideração apenas os valores extremos, não chegando a os comprar com as medidas de posição. Conforme a equação a seguir, a amplitude é a diferença entre o maior e o menor valor do conjunto de dados: Variância A variância compara cada um dos valores de um conjunto de dados com a sua média, fazendo o somatório dessas diferenças ao quadrado e dividindo o resultado pelo número de elementos desse conjunto. Se calcularmos as diferenças entre cada um dos valores de dados xi e a média, encontraremos diferenças positivas e negativas. A média é o ponto de equilíbrio da distribuição, de modo que, se simplesmente calcularmos a média dessas diferenças, sempre teremos o valor zero, que obviamente não nos proporciona uma medida útil de variabilidade. Uma maneira de evitarmos essa situação seria elevar as diferenças ao quadrado antes de calcularmos a média dessas diferenças (DOANE, 2014). Medidas de posição e medidas de dispersão6 A variância populacional é dada por: A variância amostral é dada por: Observe que existe uma diferença no denominador entre a variância amostral e a populacional, além, claro, de a representação da média ser por uma letra grega na população e por uma letra minúscula na amostra. Uma amostra contém n unidades de informação, cada uma das quais pode ter qualquer valor, independentemente das demais. Contudo, uma vez que você tenha calculado a média da amostra (o que deve ser feito para encontrar a variância), restam apenas n – 1 unidades de informação independentes (já que a soma total dos valores da amostra está fixada para levar à média). Divide-se a soma de quadrados dos desvios por n – 1, em vez de n, pois alguma informação foi “perdida”. Caso contrário, s2 tenderia a subestimar a variância da população desconhecida (DOANE, 2014). Assim como para a média, é possível calcular a variância para dados dispos- tos em uma tabela de distribuição de frequências por ponto, respeitando-se as frequências observadas de cada um dos valores da tabela. É possível, também, obter uma estimativa, caso os dados estejam dispostos em uma tabela de distribuição de frequências por classes, mas não nos atentaremos a essa estimativa. A variância populacional para uma tabela de distribuição de frequências por ponto é dada por: A variância amostral para uma tabela de distribuição de frequências por ponto é dada por: Medidas de posição e medidas de dispersão 7 Desvio-padrão A variância elevou todos os termos ao quadrado, de modo que, matemati- camente, a unidade de medida também está elevada ao quadrado. Desse modo, não é possível comparar a variância diretamente com a média; para essa comparação, é preciso tirar a raiz quadrada da variância, e esse re- sultado passa a se chamar desvio-padrão. Portanto, o desvio-padrão é a raiz quadrada da variância. Justamente porque a variância está elevada ao quadrado, ela não é a medida de variabilidade mais utilizada, mas sim a sua raiz, o desvio-padrão. O desvio-padrão populacional é dado por: O desvio-padrão amostral é dado por: A exemplo da média e da variância, o desvio-padrão pode ser calculado para uma tabela de distribuição de frequências por ponto. O desvio-padrão populacional para uma tabela de distribuição de frequ- ências por ponto é dado por: O desvio-padrão amostral para uma tabela de distribuição de frequências por ponto é dado por: Medidas de posição e medidas de dispersão8 Coeficiente de variação Os desvios-padrão somente podem ser comparados para conjuntos de dados medidos nas mesmas unidades. Por exemplo, diárias de hotéis em Tóquio (em iene) não podem ser comparadas com diárias de hotéis em Paris (em euros). Além disso, os desvios-padrão não devem ser comparados se suas médias diferirem de maneira substancial, ainda que as unidades das medidas sejam as mesmas. Por exemplo, os pesos de maçãs (em quilogramas) têm uma média menor do que os pesos de melancias (em quilogramas) (DOANE, 2014). Por esse motivo, tem-se o coeficiente de variação, que calcula uma va- riabilidade percentual, anulando, assim, unidades de medidas diferentes. O coeficiente de variação sempre deverá ser calculado quando se quiser comparar dois ou mais grupos de dados quanto à sua homogeneidade, mas somente se os dados tiverem médias muito diferentes ou unidades de me- didas distintas. Quanto menor for o valor do coeficiente de variação, mais homogê- neos serão os dados. O percentual que resulta do coeficiente de variação pode exceder 100%, o que indica uma alta variabilidade (dados muito heterogêneos): Amplitude interquartílica Até agora, utilizamos a amplitude total dos dados e observamos apenas os valores extremos, mas existe uma amplitude entre quartis que divide a dis- tribuição de dados em quatro partes, com três quartis. Esse conceito deriva da mediana, que seria o segundo quartil. Dividir o conjunto de dados em quatro partes aproximadamente iguais é um problema, visto que dizemos “aproximadamente iguais” porque não há maneira de dividir em quatro partes iguais um conjunto com, digamos, n = 27 ou n = 33. As medidas estatísticas criadas para essa finalidade são tradicionalmente conhecidas como os três quartis — Q1, Q2 e Q3 —, e não há discussão sobre Q2, que é a mediana. Em contrapartida, há alguma discordância sobre a definição de Q1 e Q3. Da maneira pela qual os defi- niremos, os quartis dividem um conjunto de dados em quatro partes, de Medidas de posição e medidas de dispersão 9 modo que há tanto valores menores do que Q1 quanto entre Q1 e Q2, entreQ2 e Q3 e maiores do que Q3, supondo-se que não existam dois valores iguais (FREUND, 2007). Pode-se considerar os quartis da seguinte forma: a mediana (Q2) divide o conjunto de dados em duas partes; Q1 divide o conjunto de dados inferiores à mediana; e Q3 divide o conjunto de dados superiores à mediana (Figura 3). Figura 3. Posições dos quartis para diferentes tamanhos de amostra. Fonte: Freund (2007, p. 71). Além dos quartis, existem os decis, que dividem o conjunto de dados em 10 partes, e os percentis, que dividem o conjunto de dados em cem partes. Aplicando as medidas de posição e de variabilidade O resumo de dados se inicia pela análise descritiva de dados, em que é possível realizar os primeiros resumos numéricos para um grupo de dados. Assim, é possível criar tabelas de distribuição de frequências, gráficos e medidas de posição e de tendência central. A análise dos dados se iniciará por meio desses resumos numéricos, e somente a partir daí pode-se passar para análises mais complexas e inferências. Medidas de posição e medidas de dispersão10 Em uma plantação de milho, foi realizado um experimento em que 10 sementes de milho de cultivares idênticas foram plantadas em solos iguais, com os mesmos tratos de irrigação e adubação. As plantas cresceram por um período e foram anotadas as alturas dessas 10 cultivares. Os dados foram anotados em centímetros. 203 201 205 204 202 207 205 202 195 206 A variável analisada é a altura de 10 plantas de milho. As primeiras per- cepções são obtidas quando se inicia a análise descritiva desses dados. Como há uma variável quantitativa, pode-se iniciar essa análise pelas medidas de posição: Em média, as plantas de milho medem 203 cm após um período de seu cultivo. Também é possível calcular a mediana desses dados, mas, primeiro, é preciso ordenar os dados. 195 201 202 202 203 204 205 205 206 207 Como há um número par de elementos, a posição da mediana é localizada da seguinte maneira: Ou seja, metade das plantas mede menos de 203,5 cm e a outra metade dessas plantas mede mais de 203,5 cm. A moda é o valor que mais se repete, e, nesse caso, as alturas mais frequentes para esses dados são 202 cm e 205 cm. Notoriamente, existe uma variabilidade nesses dados, pois as alturas são diferentes, embora as cultivares tenham tido o mesmo trato. Pode-se, então, calcular as medidas de variabilidade. Como visto, não é possível analisar a variância diretamente para compará-la com a média, sendo preciso calcular o desvio-padrão: Portanto, a variabilidade em torno da média de 203 cm é de 3,4 cm. Além disso, pode-se calcular a variabilidade relativa da seguinte forma: A variabilidade é baixa, pois tem-se uma amplitude total dos dados também pequena. A partir desse primeiro resumo descritivo dos dados, pode-se partir para análises mais complexas. Medidas de posição e medidas de dispersão 11 As medidas de análise descritiva apresentadas são essenciais para o resumo de um conjunto de dados inicial. Essas medidas, em si, já resumem muito bem os dados e servem de ponto de partida para a tomada de decisão. Obviamente, para estudos inferenciais, são necessárias mais informações, mas sempre são utilizadas as medidas de posição e de variabilidade como análise preliminar. Referências DOANE, D. P. Estatística aplicada à administração. 4. ed. Porto Alegre: Bookman, 2014. FREUND, J. E. Estatística aplicada: economia, administração e contabilidade. 11. ed. Porto Alegre: Bookman, 2007. KAZMIER, L. J. Estatística aplicada à administração e economia. 4. ed. Porto Alegre: Bookman, 2008. Leitura recomendada BECKER, J. L. Estatística básica: transformando dados em informação. Porto Alegre: Bookman, 2015. Medidas de posição e medidas de dispersão12 DICA DO PROFESSOR Aprendendo sobre medidas de posição e de variabilidade, você sabe como calcular manualmente a média, a mediana, a moda, o desvio padrão e a variância. Porém, nos dias de hoje, com os recu rsos computacionais disponíveis, é importante que se saiba calcular essas medidas com o auxílio de uma planilha eletrônica. Aprenda como fazer isso na Dica do Professor. Aponte a câmera para o código e acesse o link do vídeo ou clique no código para acessar. EXERCÍCIOS 1) Uma grande empresa de arroz tem cinco loteamentos de terra e decidiu fazer alguma s análises quanto à produção mensal de casa um deles. Para isso, anotou quanto cada um desses loteamentos produziu no último mês, obtendo os seguintes resultados em k g: 203, 195, 235, 128, 235. Indique qual das alternativas contém os resultados da média, da moda e da mediana, respectivamente. A) 199,2 - 235 - 235. B) 192,9 - 203 - 235. C) 235 - 203 - 199,2. D) 235 - 235 - 199,2. E) 199,2 - 235 - 203. 2) Uma amostra de áreas de plantio de forrageiras foi anotada por um engenheiro agrô nomo. Os dados são os seguintes (em m2): 29, 32, 39, 42, 59, 55. Qual é a variabilidade percentual desses dados? A) 12,11%. B) 11,06%. C) 42,67%. D) 28,38%. E) 39,00%. 3) Um produtor de leite tem algumas vacas e percebeu que elas têm entregado volumes muito diferentes de leite por dia. Por isso, ele resolveu verificar a variabilidade em to rno da média de produção de uma amostra de 9 vacas. A produção em litros anotada para cada uma delas em um dia foi de: 5, 6, 9, 2, 3, 5, 10, 4, 2. Qual o valor dessa variabilidade? A) 2,69 litros. B) 2,85 litros. C) 5,11 litros. D) 8,11 litros. E) 5,57 litros. Um levantamento de dados foi realizado em 61 fazendas de gado nos países do Mercos ul, e foi anotado o número de bois em cada uma delas. 4) Indique a média e a mediana para esses dados: A) 350 e 350. B) 341 e 350. C) 341 e 300. D) 350 e 300. E) 341 e 348. Um levantamento de dados foi realizado em 61 fazendas de gado nos países do Mercos ul, e foi anotado o número de bois em cada uma delas. 5) Indique o desvio padrão para esses dados. A) 93.304. B) 96. C) 9.459. D) 97. E) 129. NA PRÁTICA Os estudos voltados à experimentação agrícola utilizam muito de estatística inferencial. A área a grícola, especialmente para plantio, utiliza largamente técnicas de projetos de experimentos. Porém, todas as análises, sejam elas mais sofisticadas, sejam elas mais simples, sempre iniciarão com os resumos numéricos, com a estatística descritiva, o uso de tabelas, gráficos, medidas de p osição e de variabilidade. Neste Na Prática, veja as estatísticas descritivas utilizadas em um estudo sobre a composição de mográfica domiciliar e a dinâmica do uso do solo em Machadinho d'Oeste, em Rondônia. SAIBA + Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professo r: Site da Embrapa No site da Embrapa, você terá acesso a vários dados estatísticos de produção agrícola, abate, pec uária e comércio exterior agro segmentados por período e por região. Aponte a câmera para o código e acesse o link do vídeo ou clique no código para acessar. Como habilitar a análise de dados no Excel Veja como instalar o suplemento de análise de dados para realizar as análises descritivas de dad os no Excel. Esse suplemento apresenta a análise descritiva, facilitando o primeiro resumo de da dos, e ainda mostra outras análises estatísticas como os testes de hipóteses e análise de regressã o. Aponte a câmera para o código e acesse o link do vídeo ou clique no código para acessar.
Compartilhar