Prévia do material em texto
ESTATÍSTICA E EXPERIMENTAÇÃO NA AGRONOMIA OBJETIVOS DE APRENDIZAGEM > Definir as medidas de posição, média, moda e mediana. > Diferenciar as medidas de amplitude de variação, variância, desvio-padrão, coeficiente de variação e amplitude entre quartis. > Resolver problemas aplicados envolvendo medidas de posição e dispersão. Introdução Neste capítulo, você conhecerá as técnicas de análise descritiva de dados, bem como verá para qual finalidade serve cada uma delas e suas aplicações. Além disso, conhecerá as ferramentas de resumo de dados. Com esse conteúdo, você estará preparado para realizar resumos numéricos de variáveis quantitativas, seja em uma mostra, seja em uma população. Medidas de posição As medidas de posição, também chamadas de medidas de tendência central, são calculadas com o intuito de representar o conjunto de dados com um único número. Os dados podem, ainda, ser representados por tabelas, gráficos ou intervalos. As medidas de posição podem ser calculadas para dados amos- trais e para dados populacionais, podendo ser divididas em: estimativa (ou estatística), quando esse resumo numérico é calculado com base em dados de uma amostragem; e parâmetro, quando o resumo é calculado com base em dados de um censo. Medidas de posição e medidas de dispersão Juliane Silveira Freire da Silva Em geral, as medidas de posição mais utilizadas são a média aritmética (ou simplesmente média), a moda e a mediana. Contudo, é possível calcular outras médias, como a média ponderada e a média geométrica. A seguir, serão descritas a média, a moda e a mediana. Média A média é a medida de posição mais popular e utilizada entre as medidas apresentadas neste capítulo. A média aritmética é calculada somando-se todos os valores da distribuição dos dados e dividindo-se o resultado pela quantidade de elementos. Obviamente, a média é calculada com dados nu- méricos, ou seja, com variáveis quantitativas. Média amostral: Média populacional: onde: � são, respectivamente, a média amostral e a média populacional; � xi e Xi são, respectivamente, cada um dos n elementos da amostra e cada um dos N elementos da população; � n e N são, respectivamente, o tamanho da amostra e o tamanho da população. Essas fórmulas são utilizadas quando os dados estão dispostos em rol. Quando os dados estiverem dispostos em uma tabela de distribuição de frequências por ponto, faz-se necessário utilizar a frequência de cada um dos valores da distribuição de dados. Média amostral para dados dispostos em uma tabela de distribuição de frequências por intervalos: Medidas de posição e medidas de dispersão2 Média populacional para dados dispostos em uma tabela de distribuição de frequências por intervalos: Dados em rol são os dados coletados e ordenados de forma crescente, mas que ainda não foram agrupados ou analisados. A média aritmética é uma média com a qual a maioria de nós está fami- liarizada. A média é afetada por todos os itens da amostra. Ela é o ponto de equilíbrio ou o centro de massa (ou, ainda, o centro de gravidade) da distribuição se consideramos o eixo X uma barra de equilíbrio e cada item dos dados um peso físico (DOANE, 2014). Mediana A mediana (Figura 1) é o valor central de um conjunto de dados, portanto, ela é o valor que divide a distribuição de dados ao meio, em que 50% das informações será menor ou igual à mediana e a outra metade será maior ou igual a ela. Logo, é fundamental que os dados estejam ordenados de forma crescente ou decrescente para que se encontre a mediana. Figura 1. Ilustração da mediana. Fonte: Doane (2014, p. 115). Medidas de posição e medidas de dispersão 3 Como é possível observar na Figura 1, a posição da mediana depende de se tamanho da amostra ou população é um número par ou ímpar. No caso de um número de elementos ímpar, a mediana será o próprio valor central, ao passo que, no caso de um número de elementos par, a mediana será a média dos dois valores centrais da distribuição de dados. As fórmulas da mediana indicam a posição que o valor mediano ocupa. Após calcular a posição, faz-se necessário verificar qual valor ocupa a posição da mediana. Posição da mediana para n ímpar: Posição da mediana para n par: O cálculo para encontrar a posição da mediana é o mesmo tanto para os dados em rol quanto para os dados em uma tabela de distribuição de frequências por ponto. A mediana é utilizada para evitar a possibilidade de sermos enga- nados por um ou alguns valores muito pequenos ou muito grandes. Ocasionalmente, descrevemos o “meio” ou “centro” de um conjunto de dados com outras medidas estatísticas que não a média. Uma dessas medidas, a mediana de n valores, requer que, primeiro, ordenemos os dados de acordo com o seu tamanho (FREUND, 2007). Moda A moda é o valor (ou valores) mais frequente de uma distribuição de dados. Entretanto, existe a possibilidade de a moda de um conjunto de dados não existir, sendo este conjunto denominado amodal. Do mesmo modo, um con- junto pode ter uma moda, duas modas (bimodal) ou mais de duas modas (polimodal). Das três medidas de posição apresentadas — média, mediana e moda —, a moda é a medida menos poderosa. Medidas de posição e medidas de dispersão4 Relação entre média, moda e mediana A Figura 2 apresenta o comportamento gráfico dos dados de acordo com os seus valores de média, moda e mediana. Uma distribuição é dita simétrica quando as três medidas de posição coincidem, ou seja, média = mediana = moda. De modo inverso, uma distribuição é dita assimétrica quando as três medidas de posição não coincidirem. A distribuição será assimétrica positiva (ou assimétrica à direita) se a média for maior do que a mediana, ao passo que será assimétrica negativa (ou assimétrica à esquerda) se a média for menor do que a mediana. A assimetria é dada com a relação entre média e mediana, pois, em algumas situações, pode-se ou não ter uma ou mais modas. Figura 2. Relações entre média, moda e mediana. Fonte: Kazmier (2008, p. 53). Considerando-se o uso dessas medidas de representação de dados popu- lacionais, o valor da moda indica onde estão localizados a maioria dos valores observados, como o salário por hora em uma companhia. Assim, ela pode ser útil como medida descritiva para um grupo da população, mas somente se existir uma moda bem definida. Em contrapartida, a mediana é sempre uma excelente medida que representa o nível típico dos valores observados, assim como os salários em uma população. Isso é verdadeiro independentemente da existência de mais de uma moda ou de se a distribuição da população é simétrica ou assimétrica. A falta de simetria não é um problema especial, pois a mediana dos salários, por exemplo, é sempre o salário da “pessoa central” quando os salários estão listados em ordem de magnitude. A média aritmética também é um excelente valor representativo para uma população, mas somente se a população for simétrica. Para dados não simétricos, os valores extremos (p. ex., alguns salários muito elevados de técnicos especialistas) servirão para distorcer Medidas de posição e medidas de dispersão 5 o valor da média como um valor representativo. Dessa forma, a mediana é geralmente a melhor medida de posição dos dados para descrever os dados de uma população (KAZMIER, 2008). Medidas de variabilidade As medidas de variabilidade, também chamadas de medidas de dispersão, medem o quanto os dados estão dispersos em relação a uma medida de posição ou quão próximos dessa medida eles se concentram. Uma característica da maioria dos conjuntos de dados é que os valores não são todos iguais entre si; de fato, a extensão de sua diferença ou variabilidade é de fundamental importância para a estatística (FREUND, 2007). A seguir, serão apresentados a amplitude total dos dados, a variância, o desvio-padrão, o coeficiente de variação e a amplitude interquartílica. Amplitude A medida de variabilidade mais simples é a amplitude total dos dados, em quese observa o maior e o menor valor de um conjunto de dados. Ela é considerada a medida mais simples porque leva em consideração apenas os valores extremos, não chegando a os comprar com as medidas de posição. Conforme a equação a seguir, a amplitude é a diferença entre o maior e o menor valor do conjunto de dados: Variância A variância compara cada um dos valores de um conjunto de dados com a sua média, fazendo o somatório dessas diferenças ao quadrado e dividindo o resultado pelo número de elementos desse conjunto. Se calcularmos as diferenças entre cada um dos valores de dados xi e a média, encontraremos diferenças positivas e negativas. A média é o ponto de equilíbrio da distribuição, de modo que, se simplesmente calcularmos a média dessas diferenças, sempre teremos o valor zero, que obviamente não nos proporciona uma medida útil de variabilidade. Uma maneira de evitarmos essa situação seria elevar as diferenças ao quadrado antes de calcularmos a média dessas diferenças (DOANE, 2014). Medidas de posição e medidas de dispersão6 A variância populacional é dada por: A variância amostral é dada por: Observe que existe uma diferença no denominador entre a variância amostral e a populacional, além, claro, de a representação da média ser por uma letra grega na população e por uma letra minúscula na amostra. Uma amostra contém n unidades de informação, cada uma das quais pode ter qualquer valor, independentemente das demais. Contudo, uma vez que você tenha calculado a média da amostra (o que deve ser feito para encontrar a variância), restam apenas n – 1 unidades de informação independentes (já que a soma total dos valores da amostra está fixada para levar à média). Divide-se a soma de quadrados dos desvios por n – 1, em vez de n, pois alguma informação foi “perdida”. Caso contrário, s2 tenderia a subestimar a variância da população desconhecida (DOANE, 2014). Assim como para a média, é possível calcular a variância para dados dispos- tos em uma tabela de distribuição de frequências por ponto, respeitando-se as frequências observadas de cada um dos valores da tabela. É possível, também, obter uma estimativa, caso os dados estejam dispostos em uma tabela de distribuição de frequências por classes, mas não nos atentaremos a essa estimativa. A variância populacional para uma tabela de distribuição de frequências por ponto é dada por: A variância amostral para uma tabela de distribuição de frequências por ponto é dada por: Medidas de posição e medidas de dispersão 7 Desvio-padrão A variância elevou todos os termos ao quadrado, de modo que, matemati- camente, a unidade de medida também está elevada ao quadrado. Desse modo, não é possível comparar a variância diretamente com a média; para essa comparação, é preciso tirar a raiz quadrada da variância, e esse re- sultado passa a se chamar desvio-padrão. Portanto, o desvio-padrão é a raiz quadrada da variância. Justamente porque a variância está elevada ao quadrado, ela não é a medida de variabilidade mais utilizada, mas sim a sua raiz, o desvio-padrão. O desvio-padrão populacional é dado por: O desvio-padrão amostral é dado por: A exemplo da média e da variância, o desvio-padrão pode ser calculado para uma tabela de distribuição de frequências por ponto. O desvio-padrão populacional para uma tabela de distribuição de frequ- ências por ponto é dado por: O desvio-padrão amostral para uma tabela de distribuição de frequências por ponto é dado por: Medidas de posição e medidas de dispersão8 Coeficiente de variação Os desvios-padrão somente podem ser comparados para conjuntos de dados medidos nas mesmas unidades. Por exemplo, diárias de hotéis em Tóquio (em iene) não podem ser comparadas com diárias de hotéis em Paris (em euros). Além disso, os desvios-padrão não devem ser comparados se suas médias diferirem de maneira substancial, ainda que as unidades das medidas sejam as mesmas. Por exemplo, os pesos de maçãs (em quilogramas) têm uma média menor do que os pesos de melancias (em quilogramas) (DOANE, 2014). Por esse motivo, tem-se o coeficiente de variação, que calcula uma va- riabilidade percentual, anulando, assim, unidades de medidas diferentes. O coeficiente de variação sempre deverá ser calculado quando se quiser comparar dois ou mais grupos de dados quanto à sua homogeneidade, mas somente se os dados tiverem médias muito diferentes ou unidades de me- didas distintas. Quanto menor for o valor do coeficiente de variação, mais homogê- neos serão os dados. O percentual que resulta do coeficiente de variação pode exceder 100%, o que indica uma alta variabilidade (dados muito heterogêneos): Amplitude interquartílica Até agora, utilizamos a amplitude total dos dados e observamos apenas os valores extremos, mas existe uma amplitude entre quartis que divide a dis- tribuição de dados em quatro partes, com três quartis. Esse conceito deriva da mediana, que seria o segundo quartil. Dividir o conjunto de dados em quatro partes aproximadamente iguais é um problema, visto que dizemos “aproximadamente iguais” porque não há maneira de dividir em quatro partes iguais um conjunto com, digamos, n = 27 ou n = 33. As medidas estatísticas criadas para essa finalidade são tradicionalmente conhecidas como os três quartis — Q1, Q2 e Q3 —, e não há discussão sobre Q2, que é a mediana. Em contrapartida, há alguma discordância sobre a definição de Q1 e Q3. Da maneira pela qual os defi- niremos, os quartis dividem um conjunto de dados em quatro partes, de Medidas de posição e medidas de dispersão 9 modo que há tanto valores menores do que Q1 quanto entre Q1 e Q2, entre Q2 e Q3 e maiores do que Q3, supondo-se que não existam dois valores iguais (FREUND, 2007). Pode-se considerar os quartis da seguinte forma: a mediana (Q2) divide o conjunto de dados em duas partes; Q1 divide o conjunto de dados inferiores à mediana; e Q3 divide o conjunto de dados superiores à mediana (Figura 3). Figura 3. Posições dos quartis para diferentes tamanhos de amostra. Fonte: Freund (2007, p. 71). Além dos quartis, existem os decis, que dividem o conjunto de dados em 10 partes, e os percentis, que dividem o conjunto de dados em cem partes. Aplicando as medidas de posição e de variabilidade O resumo de dados se inicia pela análise descritiva de dados, em que é possível realizar os primeiros resumos numéricos para um grupo de dados. Assim, é possível criar tabelas de distribuição de frequências, gráficos e medidas de posição e de tendência central. A análise dos dados se iniciará por meio desses resumos numéricos, e somente a partir daí pode-se passar para análises mais complexas e inferências. Medidas de posição e medidas de dispersão10 Em uma plantação de milho, foi realizado um experimento em que 10 sementes de milho de cultivares idênticas foram plantadas em solos iguais, com os mesmos tratos de irrigação e adubação. As plantas cresceram por um período e foram anotadas as alturas dessas 10 cultivares. Os dados foram anotados em centímetros. 203 201 205 204 202 207 205 202 195 206 A variável analisada é a altura de 10 plantas de milho. As primeiras per- cepções são obtidas quando se inicia a análise descritiva desses dados. Como há uma variável quantitativa, pode-se iniciar essa análise pelas medidas de posição: Em média, as plantas de milho medem 203 cm após um período de seu cultivo. Também é possível calcular a mediana desses dados, mas, primeiro, é preciso ordenar os dados. 195 201 202 202 203 204 205 205 206 207 Como há um número par de elementos, a posição da mediana é localizada da seguinte maneira: Ou seja, metade das plantas mede menos de 203,5 cm e a outra metade dessas plantas mede mais de 203,5 cm. A moda é o valor que mais se repete, e, nesse caso, as alturas mais frequentes para esses dados são 202 cm e 205 cm. Notoriamente, existe uma variabilidade nesses dados, pois as alturas são diferentes, embora as cultivares tenham tido o mesmo trato. Pode-se, então, calcularas medidas de variabilidade. Como visto, não é possível analisar a variância diretamente para compará-la com a média, sendo preciso calcular o desvio-padrão: Portanto, a variabilidade em torno da média de 203 cm é de 3,4 cm. Além disso, pode-se calcular a variabilidade relativa da seguinte forma: A variabilidade é baixa, pois tem-se uma amplitude total dos dados também pequena. A partir desse primeiro resumo descritivo dos dados, pode-se partir para análises mais complexas. Medidas de posição e medidas de dispersão 11 As medidas de análise descritiva apresentadas são essenciais para o resumo de um conjunto de dados inicial. Essas medidas, em si, já resumem muito bem os dados e servem de ponto de partida para a tomada de decisão. Obviamente, para estudos inferenciais, são necessárias mais informações, mas sempre são utilizadas as medidas de posição e de variabilidade como análise preliminar. Referências DOANE, D. P. Estatística aplicada à administração. 4. ed. Porto Alegre: Bookman, 2014. FREUND, J. E. Estatística aplicada: economia, administração e contabilidade. 11. ed. Porto Alegre: Bookman, 2007. KAZMIER, L. J. Estatística aplicada à administração e economia. 4. ed. Porto Alegre: Bookman, 2008. Leitura recomendada BECKER, J. L. Estatística básica: transformando dados em informação. Porto Alegre: Bookman, 2015. Medidas de posição e medidas de dispersão12