Baixe o app para aproveitar ainda mais
Prévia do material em texto
44 Unidade II Unidade II 3 MEDIDAS DE TENDÊNCIA CENTRAL As medidas de tendência central são usadas para representar o conjunto de dados em um único valor. São medidas de tendência central a média, a moda e a mediana. Conforme as características do conjunto de dados e da finalidade de uso do indicador de tendência central, opta‑se por uma das três medidas. 3.1 Médias A primeira medida de tendência central a ser abordada é a média, que é um estimador adequado para dados razoavelmente comportados (sem dados discrepantes). A média pode ser simples ou ponderada. Para calcular médias, é conveniente primeiro compreender o conceito de somatório. 3.1.1 Somatório Somatório é um operador matemático indicado por Σ usado para somas sucessivas. No somatório, indica‑se um índice com seu valor inicial e seu valor final, e esse índice é incrementado por uma unidade a cada parcela somada. Matematicamente, temos: n i 0 1 2 n 1 n i 0 x x x x x x− = = + + +…+ +∑ Embaixo do símbolo de somatório, define‑se o índice que será incrementado e passamos o seu valor inicial. Sobre o símbolo de somatório, colocamos o valor final do índice. Neste exemplo, o valor inicial do índice i é 0, e o valor final é n. Então, somam‑se as parcelas de x cujo índice varia desde o valor inicial 0 até o valor final n. É usual adotarmos as letras i ou j para índice de somatórios. 45 ESTATÍSTICA Exemplo de aplicação Calcule o valor da seguinte expressão matemática: 5 i 1 i = ∑ No exemplo, a expressão pede para realizar o somatório entre os próprios valores assumidos pelo índice i. Expandindo o somatório, com o índice i iniciando em 1 e terminando em 5, temos: 5 i 1 i 1 2 3 4 5 = = + + + +∑ 5 i 1 i 15 = =∑ 3.1.2 Média aritmética simples A média de um conjunto de dados xi costuma ser indicada por <x> ou por x. Neste livro‑texto usa‑se a notação x para representar a média. A média aritmética simples de N dados é obtida somando‑se esses dados e dividindo‑se o resultado da soma pelo número de dados N. Matematicamente, temos: N ii 1 x x N == ∑ Note que, para resolver essa equação, primeiro é preciso calcular o somatório, que indica a soma de todos os dados xi, com i de 1 até N, e, depois, é preciso dividir o resultado pelo número de dados N. Exemplo de aplicação Imagine que os tempos de resposta de um computador ligado em rede sejam os listados na tabela a seguir. 46 Unidade II Figura 17 – Cabos passando por trás de uma máquina Disponível em: https://cutt.ly/0Mx8p2R. Acesso em: 27 jun. 2022. Tabela 14 – Tempos de resposta de um computador ligado em rede Tempo de resposta (ms) 1,013 1,102 1,004 1,121 Pode‑se calcular o tempo de resposta médio desse computador usando a seguinte equação: N ii 1 x x N == ∑ Como são 4 dados e N indica o número de dados, temos N = 4; logo, a soma dos dados deve ser feita do primeiro dado da tabela até o quarto e último dado, usando a letra t em vez de x na equação por se tratar da variável tempo (usualmente representado por t). Portanto: 47 ESTATÍSTICA 4 ii 1 t t 4 == ∑ 1 2 3 4t t t tt 4 + + + = 1,013 1,102 1,004 1,121 t 4 + + + = Calcula‑se primeiro a soma que está no numerador da fração: 4,240 t 4 = Então, calcula‑se a divisão: t 1,060 ms= Logo, o tempo de resposta médio desse computador na rede é de 1,060 ms. Observação O tempo de resposta do computador em rede foi calculado em ms, ou seja, em milissegundos. O prefixo mili representa 10‑3, ou 0,001. A tabela a seguir apresenta outros prefixos frequentemente usados. Tabela 15 – Alguns prefixos Nome do prefixo Valor do prefixo mili (m) 10‑3 ou 0,001 micro (µ) 10‑6 ou 0,000001 nano (n) 10‑9 ou 0,000000001 kilo (k) 103 ou 1.000 mega (M) 106 ou 1.000.000 giga (G) 109 ou 1.000.000.000 tera (T) 1012 ou 1.000.000.000.000 48 Unidade II Saiba mais Para uma introdução à linguagem de programação Python, acesse: W3BIG. Tutorial baseado em Python. W3big, [s.d.]. Disponível em: https://cutt.ly/5MTsKZH. Acesso em: 14 nov. 2022. Para ver aplicações do cálculo de média aritmética em Python, acesse: RIYAZ, N. Calcule a média aritmética em Python. DelftStack, Londres, 9 jul. 2021. Disponível em: https://cutt.ly/bMTcG0w. Acesso em: 14 nov. 2022. Para ler sobre a linguagem R, acesse: PRATES, M. O. Introdução ao Software R. Departamento de Estatística da Universidade Federal de Minas Gerais, Belo Horizonte, dez. 2016. Disponível em: https://cutt.ly/DMTvQOY. Acesso em: 14 nov. 2022. Para saber como calcular média aritmética e outras estatísticas que veremos mais adiante em R, acesse: SILVA, H. A. Estatística descritiva com o R. RPubs, 18 jan. 2018. Disponível em: https://cutt.ly/AMTvLEo. Acesso em: 14 nov. 2022. Também é possível calcular médias em SQL, linguagem popular para banco de dados. Para saber como calcular médias em SQL, acesse: DIZ, J. Análise de dados com SQL: médias. Porto SQL, Belo Horizonte, 16 out. 2020. Disponível em: https://cutt.ly/FMTbuBl. Acesso em: 14 nov. 2022. A média aritmética simples trata todos os dados de forma igual, com mesmo peso no cálculo final, mas pode ser necessário aplicar um peso maior em alguns dados – o que é feito na média ponderada. 3.1.3 Média ponderada A média ponderada é calculada de modo que cada dado é multiplicado por seu peso pi. Se temos N medidas xi, cada uma associada a um peso pi, a média ponderada é calculada por: N i ii 1 N ii 1 p .x x p = = = ∑ ∑ 49 ESTATÍSTICA Note que, no numerador da fração, há a soma do produto de cada medida pelo seu peso, e, no denominador, a soma de todos os pesos – lembrando que é preciso calcular os somatórios para em seguida calcular a divisão. No exemplo a seguir é demonstrado um cálculo de média ponderada. Exemplo de aplicação Considere o caso de um aluno que tirou as seguintes notas: 8 na primeira prova, 7 na segunda prova e 4 na terceira prova. Se pensarmos em média aritmética simples, a média do aluno seria superior a 5 e ele estaria aprovado na disciplina. Mas a vida não é tão simples para esse aluno, pois a última prova tem peso 3 e as demais têm peso 1. Figura 18 – Prova Disponível em: https://cutt.ly/eMx7N7Y. Acesso em: 14 nov. 2022. Para calcular a média do aluno, é preciso usar a média ponderada. Da equação para esse cálculo, temos: N i ii 1 N ii 1 p .x x p = = = ∑ ∑ Substituindo os pesos e as notas no somatório, ficamos com: 1.8 1.7 3.4 x 1 1 3 + + = + + 50 Unidade II Note que, no numerador, soma‑se o produto do peso de cada prova pela nota da respectiva prova, e, no denominador, temos a soma dos pesos de cada prova. Fazendo os cálculos, chega‑se a: 8 7 12 x 5 + + = 27 x 5 = x 5,4= A média ponderada das notas das provas, com nota 8 na primeira prova, nota 7 na segunda e nota 4 na terceira, com peso 3 na última prova e peso 1 nas demais, foi 5,4. Logo, o aluno foi aprovado ao considerar a média mínima igual a 5 para aprovação. 3.1.4 Média para medidas organizadas em classes Veja, agora, como calcular a média quando estão disponíveis as informações das frequências de um conjunto de dados. Se temos N medidas xi, organizadas em classes (ou intervalos) de ponto médio Pmi e frequência fi, a média é calculada por: N i ii 1 N ii 1 Pm .f x f = = = ∑ ∑ Note que, se os dados estão organizados em frequências absolutas, a soma das frequências é igual ao número de dados N, mas, se os dados estão organizados em frequências relativas, a soma das frequências é igual a 1. O cálculo da média de uma distribuição de frequências é tratado no exemplo a seguir. 51 ESTATÍSTICA Exemplo de aplicação Considere a tabela a seguir, que mostra as frequências de salários em uma empresa. Figura 19 – Moedas empilhadas sobre notas de dinheiro Disponível em: https://cutt.ly/mMx7WMN. Acesso em: 14 nov. 2022. Tabela 16 – Distribuição dos salários em uma empresa Salário (em salários mínimos) Ponto médio do intervalo (em salários mínimos) Número de funcionários 0 ⊢ 2 1 0 2 ⊢ 4 3 5 4 ⊢ 6 5 3 6 ⊢ 8 7 12 8 ⊢ 10 9 4 Calculandoa média, em que o peso é o número de funcionários e o dado é o valor central da faixa de salários, temos: N i ii 1 N ii 1 Pm .f x f = = = ∑ ∑ 0.1 5.3 3.5 12.7 4.9 x 0 5 3 12 4 + + + + = + + + + 0 15 15 84 36 x 8 16 + + + + = + 52 Unidade II 150 x 24 = x 6,25= Logo, o salário médio nessa empresa considerando a distribuição de salários dada é igual a 6,25 salários mínimos. Lembrete O ponto médio de um intervalo é calculado pela soma do limite superior (Ls) desse intervalo e do seu limite inferior (Li), dividida por 2. Ls Li Pm 2 + = No exemplo, pode‑se trabalhar com uma planilha de frequências, mas também obter os dados de um histograma, como será visto no exemplo a seguir. Exemplo de aplicação Considere o histograma do lançamento de um dado de 6 faces, visto na figura 12. Qual é o valor esperado para a face do dado no próximo lançamento, sabendo que o valor esperado é o valor médio? Distribuição de frequências para lançamento de um dado numérico de 6 faces frequência face654321 4 3 2 1 Figura 20 – Exemplo de histograma construído a partir dos dados da tabela 8, com dados de frequência relativa dos resultados dos lançamentos de um dado de 6 faces 53 ESTATÍSTICA Como temos a informação de frequência, deve‑se usar a média. N i ii 1 N ii 1 p .f x p = = = ∑ ∑ Temos as frequências (no caso, frequências absolutas) de cada face do dado. Então, substituindo essas informações na equação e colocando a soma do produto de cada face pela sua frequência no numerador da fração e a soma das frequências no denominador, temos o seguinte: 3.1 4.2 2.3 1.4 2.5 2.6 x 3 4 2 1 2 2 + + + + + = + + + + + 3 8 6 4 10 12 x 7 7 + + + + + = + 11 10 22 x 14 + + = 43 x 14 = x 3≅ Nem sempre um valor inteiro é obtido como média. Como no exemplo constam apenas resultados de números inteiros no lançamento de um dado, pode‑se dizer que, no caso de média não inteira, o resultado mais provável seria o valor inteiro mais próximo do valor médio. 3.2 Mediana A mediana é o valor central de um conjunto de dados quando esses são organizados em um rol, seja ele crescente, seja ele decrescente. Se temos uma quantidade ímpar de dados, o valor central é determinado sem maiores problemas, mas, se temos um número par de dados, a mediana é a média dos dois valores centrais. A mediana é frequentemente indicada por Md. 54 Unidade II Lembrete Ao tomarmos um conjunto de dados e aplicarmos uma ordenação, do maior para o menor, em ordem alfabética ou em qualquer outra ordenação, teremos um rol. Exemplo de aplicação Considere as medidas para a espessura de uma chapa metálica, em milímetros, expressas na tabela 17 a seguir. Tabela 17 – Medidas da espessura de uma chapa metálica, em milímetros Espessura (mm) 2,03 2,41 1,99 1,82 2,06 2,03 2,01 Para calcular a mediana, precisamos primeiro ordenar os dados. Aqui, faremos a ordenação de forma crescente, mas o resultado seria o mesmo se a ordenação fosse decrescente. Ordenando os dados do menor para o maior, temos o que se mostra na tabela 18 a seguir. Tabela 18 – Medidas ordenadas da espessura de uma chapa metálica, em milímetros Espessura (mm) 1,82 1,99 2,01 2,03 2,03 2,06 2,41 O valor central da tabela é 2,03, pois temos 3 dados abaixo e 3 dados acima desse valor. Então, a mediana na espessura da chapa metálica é 2,03 mm. 55 ESTATÍSTICA Esse exemplo de aplicação usou valores próximos, mas a mediana é útil quando temos valores discrepantes (conhecidos como outliers) e não se quer que esses valores afetem o valor médio. A média aritmética é facilmente afetada por outliers, enquanto a mediana é uma estatística mais robusta, menos afetada por outliers. Exemplo de aplicação Para avaliar o uso de memória em um computador, foram feitas medidas de seu uso em momentos aleatórios ao longo do dia, conforme observado na tabela a seguir. Figura 21 – Pente de memória Disponível em: https://cutt.ly/BMcr6Bu. Acesso em: 14 nov. 2022. Tabela 19 – Uso da memória de um computador Uso de memória (%) 3,2 5,3 3,1 2,5 99,5 7,4 Examinando os valores, vemos que quase todos se encontram abaixo de 10%; mas há um valor discrepante, próximo de 100%. Se calcularmos a média aritmética simples dos dados, essa média seria muito alterada por esse valor discrepante, como demonstrado no cálculo a seguir: 56 Unidade II N ii 1 x x N == ∑ 3,2 5,3 3,1 2,5 99,5 7,4 x 6 + + + + + = 121 x 6 = x 20,17= Logo, o uso médio de memória usando média aritmética simples é de 20,17%. Mesmo com a maior parte dos valores abaixo de 10%, o valor discrepante próximo de 100% deslocou a média para cima. No caso, podemos usar a mediana, por ser uma estatística mais robusta que a média para a situação em análise. Para calcular a mediana, precisamos primeiro ordenar os dados em um rol. Tabela 20 – Uso da memória de um computador (medidas ordenadas) Uso de memória (%) 2,5 3,1 3,2 5,3 7,4 99,5 A mediana é o valor central do rol, mas, neste caso, temos dois valores centrais de acordo com a ordenação feita na tabela 20 por haver um número par de dados. A mediana, no caso, é o valor médio dos dois valores centrais: 3,2 5,3 Md 2 + = 8,5 Md 2 = Md 4,25= 57 ESTATÍSTICA Logo, o uso médio de memória usando mediana como estatística é igual a 4,25%. Esse valor é bem inferior ao valor obtido usando a média aritmética simples, pois a mediana é menos afetada por valores discrepantes. Ao calcular a mediana de dados organizados como uma distribuição de frequências, adotam‑se os seguintes passos: • somam‑se as frequências do conjunto de dados para obtermos o tamanho da amostra ou da população (N=∑fi); • encontra‑se o valor central da distribuição de frequências (N/2); • localiza‑se em qual intervalo essa frequência está inclusa; • calcula‑se a mediana usando a expressão a seguir: anteriores Md N f 2Md Li .A f − ∑ = + Na equação, temos o seguinte: • Li = limite inferior da classe que contém a mediana. • N = tamanho da amostra ou da população. • ∑fanteriores = soma das frequências das classes anteriores à classe que contém a mediana. • A = amplitude da classe que contém a mediana. • fMd = frequência da classe que contém a mediana. Lembrete Definimos a amplitude A de uma classe (ou intervalo) como a diferença entre o limite superior e o limite inferior da classe (ou intervalo). Matematicamente, tem‑se: A Ls Li= − 58 Unidade II 3.3 Moda Definimos como moda o valor mais frequente de uma distribuição de dados – ou seja, a moda é o valor com maior número de ocorrências. A moda costuma ser indicada por Mo. Exemplo de aplicação Voltando aos dados do exemplo de distribuição de salários em uma empresa, temos os seguintes valores. Tabela 21 – Distribuição dos salários em uma empresa Salário (em salários mínimos) Número de funcionários 0 ⊢ 2 0 2 ⊢ 4 5 4 ⊢ 6 3 6 ⊢ 8 12 8 ⊢ 10 4 A moda desses valores é o valor mais frequente, ou seja, com maior número de ocorrências. A faixa de valores com maior número de ocorrências é a faixa de 6 a 8 salários mínimos, com 12 funcionários com esse rendimento. Considerando a moda como o ponto médio do intervalo, a moda é igual a 7 salários mínimos. Podemos também calcular a moda a partir de dados organizados em um histograma. Exemplo de aplicação Considere o histograma a seguir, com os resultados de 14 lançamentos de um dado de 6 faces. Distribuição de frequências para lançamento de um dado numérico de 6 faces frequência face654321 4 3 2 1 Figura 22 – Exemplo de histograma construído a partir dos dados da tabela 8, com dados de frequência relativa dos resultados de 14 lançamentos de um dado de 6 faces 59 ESTATÍSTICA A moda é o valor mais frequente, ou seja, de maior número de ocorrências. Analisando o histograma, vemos que o valor mais frequente foi 2. Logo, a moda é 2. A determinação da moda de uma distribuição pode não ser tão simples, pois uma distribuição pode não ter apenas uma moda. Se uma distribuição de dados tem apenasuma moda, ela é dita unimodal. Se uma distribuição de dados tem duas modas (dois valores igualmente frequentes), ela é dita bimodal. Podemos ter ainda distribuições multimodais ou plurimodais, com três ou mais modas. 4 MEDIDAS DE DISPERSÃO As medidas de dispersão têm como objetivo indicar o “espalhamento” dos dados, ou seja, se eles estão mais concentrados perto do valor médio ou mais espalhados em relação a esse valor. Figura 23 – Exemplo de espalhamento aplicado a discos coloridos Disponível em: https://cutt.ly/HMct3xF. Acesso em: 14 nov. 2022. 4.1 Amplitude total A amplitude total, representada por A, é calculada pela diferença entre o maior dado e o menor dado do conjunto. Indicando um elemento qualquer do conjunto de dados como xi, com o menor dado sendo xmin e o maior dado sendo xmax, temos: max minA x x= − 60 Unidade II Exemplo de aplicação Na cotação de uma peça para reposição em um servidor, foram obtidos os seguintes valores: Tabela 22 – Cotação de preços de uma peça para o servidor Preço da peça (R$) 632,12 600,00 621,00 683,20 610,10 Determina‑se a amplitude total dos dados pela diferença entre o valor máximo e o valor mínimo. O valor máximo registrado na tabela 22 é R$ 683,20, e o mínimo, R$ 600,00. Dessa forma, tem‑se: A 683,20 600,00= − A 83,20= Logo, a amplitude total dos preços da peça de reposição do servidor é igual a R$ 83,20. Caso os dados estejam organizados em uma distribuição de frequências, podemos determinar a amplitude total de duas formas: • A amplitude A é dada pela diferença entre o ponto médio da maior classe (ou intervalo) e o ponto médio da menor classe (ou intervalo). • A amplitude A é dada pela diferença entre o limite superior da maior classe (ou intervalo) e o limite inferior da menor classe (ou intervalo). Lembrete O ponto médio de uma classe é calculado por: Ls Li Pm 2 + = Na equação, Ls é o limite superior e Li é o limite inferior da classe (ou intervalo). 61 ESTATÍSTICA Exemplo de aplicação Considere a tabela 23 a seguir que relaciona a distribuição de salários na área de TI em uma empresa. Figura 24 – Moedas empilhadas representando um histograma Disponível em: https://cutt.ly/mMcyALc. Acesso em: 14 nov. 2022. Tabela 23 – Distribuição dos salários na área de TI em uma empresa Salário (em salários mínimos) Número de funcionários 2 ⊢ 4 2 4 ⊢ 6 9 6 ⊢ 8 12 8 ⊢ 10 4 Os dados são apresentados em intervalos de frequência. Então, pode‑se calcular a amplitude total tanto olhando tanto para os pontos médios dos intervalos quanto para os limites dos intervalos. O menor intervalo é 2 ⊢ 4. Ao calcular seu ponto médio, tem‑se: Ls Li Pm 2 + = 4 2 Pm 2 + = 6 Pm 2 = Pm 3= 62 Unidade II Fazendo o mesmo cálculo para a maior classe, 8 ⊢ 10, tem‑se: Ls Li Pm 2 + = 10 8 Pm 2 + = 18 Pm 2 = Pm 9= Calculando a amplitude total dos dados pela diferença entre o ponto médio das duas classes extremas, tem‑se: max minA Pm Pm= − A 9 3= − A 6= Outra forma de calcular a amplitude total de dados organizados em classes (ou intervalos) é considerar apenas os extremos das classes maior e menor. Olhando novamente para a tabela, vemos que a menor classe é 2 ⊢ 4 e que a maior classe é 8 ⊢ 10. Logo, calculando a amplitude dessa forma, temos: maior classe menor classeA Ls Li= − A 10 2= − A 8= Note que foram obtidos valores ligeiramente diferentes com os dois métodos, mas ambos servem como um indicativo da dispersão dos dados. A amplitude total é uma medida de dispersão que leva em conta apenas os valores máximos e mínimos dos dados, insensível aos valores intermediários. Por isso, ela pode ser bastante afetada por dados discrepantes e deve ser usada com cautela. 63 ESTATÍSTICA 4.2 Desvio médio simples O desvio médio simples é um indicador de dispersão dos dados que considera o quanto cada dado xi se afasta do valor médio x. O desvio médio simples é indicado por Dm e é calculado por: N ii 1 x x Dm N = − = ∑ Na equação, N é o número de dados da população ou da amostra. Observação O módulo (ou valor absoluto) de um número x é indicado por |x| e é um operador que retorna o valor numérico sempre positivo. Por exemplo: |2| = 2 |‑2| = 2 O módulo (ou valor absoluto) de um número é usado não apenas em matemática ou estatística, mas também em programação. Em programação, costuma‑se usar o operador módulo para indicar o resto da divisão de um número inteiro por outro – o que não deve ser confundido com o módulo na matemática. Saiba mais Para saber mais sobre o operador ABS() em Python, leia: W3BIG. Função Python abs (). W3big, [s.d.]a. Disponível em: https://cutt.ly/VMIc39k. Acesso em: 14 nov. 2022. 64 Unidade II Exemplo de aplicação Considere as medidas para o diâmetro de uma bolinha de gude mostradas na tabela 24. Figura 25 – Bolinhas de gude Disponível em: https://cutt.ly/LMcR94S. Acesso em: 14 nov. 2022. Tabela 24 – Medidas de diâmetro de uma bolinha de gude Diâmetro (mm) 20,34 20,39 20,28 20,34 A dispersão desses dados pode ser estimada calculando‑se o desvio médio simples, como feito a seguir. ii 1 x x Dm N = − = ∑ O desvio médio simples é a soma dos módulos das diferenças entre cada valor xi e o valor médio x̄, dividida pelo número de dados N. É preciso, então, calcular a média dos dados. Para calcular a média, soma‑se todos os dados e divide‑se esse resultado pelo número de dados, que, no caso, é N = 4. N ii 1 x x N == ∑ 20,34 20,39 20,28 20,34 x 4 + + + = 65 ESTATÍSTICA 81,35 x 4 = x 20,34= Voltando ao cálculo do desvio médio, ficamos com: N ii 1 x x Dm N = − = ∑ 20,34 20,34 20,39 20,34 20,28 20,34 20,34 20,34 Dm 4 − + − + − + − = 0 0,05 0,06 0 Dm 4 + + − + = Como o módulo de um número positivo é esse valor numérico positivo, e o módulo de um número negativo é esse valor numérico mas também positivo, temos: 0,05 0,06 Dm 4 + = 0,11 Dm 4 = Dm 0, 027= Logo, o desvio médio das medidas de diâmetro da bolinha de gude é Dm = 0,027 mm. O exemplo anterior demonstrou o cálculo do desvio médio para um conjunto de dados, mas como foi calculado o desvio médio se os dados estão organizados em uma distribuição de frequências? Nesse caso, o desvio médio da distribuição é dado por: N i ii 1 Pm x .f Dm N = − = ∑ Na equação, Pmi é o ponto médio de cada classe (ou intervalo) de frequência fi. Como no caso anterior, tem‑se N dados e valor médio x. 66 Unidade II Lembrete Se há N medidas xi organizadas em classes (ou intervalos) de ponto médio Pmi e frequência fi, a média é calculada por: N i ii 1 N ii 1 Pm .f x f = = = ∑ ∑ Exemplo de aplicação No setor de controle de qualidade de uma fábrica, são medidas as massas de embalagens de macarrão. As massas não podem ser inferiores a 0,5 kg, mas também não podem ser muito superiores a esse valor. Para fazer o controle, o setor calcula o desvio médio de uma amostra de pacotes de macarrão. Figura 26 – Pacotes de macarrão Disponível em: https://cutt.ly/DMIboXc. Acesso em: 14 nov. 2022. A tabela a seguir mostra a distribuição de frequências das massas dos pacotes de macarrão de uma amostra. Tabela 25 – Distribuição de frequências das massas de pacotes de macarrão de uma amostra m (kg) fi 0,50 ⊢ 0,51 12 0,51 ⊢ 0,52 35 0,52 ⊢ 0,53 21 0,53 ⊢ 0,54 10 0,54 ⊢ 0,55 8 0,55 ⊢ 0,56 1 67 ESTATÍSTICA De início, calcula‑se a média das massas de pacotes. Para tanto, é preciso calcular o ponto médio de cada classe (ou intervalo): 0,50 ⊢ 0,51→ 1 0,51 0,50 Pm 0,505 2 − = = 0,51 ⊢ 0,52→ 2 0,52 0,51 Pm 0,515 2 − = = 0,52 ⊢ 0,53→ 3 0,53 0,52 Pm 0,525 2 − = = 0,53 ⊢ 0,54→ 4 0,54 0,53 Pm 0,535 2 − = = 0,54 ⊢ 0,55→ 5 0,55 0,54 Pm 0,545 2 − = = 0,55 ⊢ 0,56→ 6 0,56 0,55 Pm 0,555 2 − = = Calculando a massa média, temos: N i ii 1 N ii 1 Pm .f x f = = = ∑ ∑ 0,505.12 0,515.35 0,525.21 0,535.10 0,545.8 0,555.1 x 12 35 21 10 8 1 + + + + + = + + + + + 6,06 18,025 11,025 5,35 4,36 0,555 x 87 + + + + + = 45,375 x 87 = x 0,521= Calculando o desviomédio dos dados, temos: N i ii 1 Pm x .f Dm N = − = ∑ 68 Unidade II 0,505 0,521 .12 0,515 0,521 .35 0,525 0,521 .21 Dm 12 35 21 10 8 1 − + − + − = + + + + + + 0,535 0,521 .10 0,545 0,521 .8 0,555 0,521 .1 12 35 21 10 8 1 − + − + − + + + + + + 0,016 .12 0,006 .35 0,004 .21 Dm 87 − + − + = + 0,014 .10 0,024 .8 0,034 .1 87 + + + 0,016.12 0,006.35 0,004.21 0,014.10 0,024.8 0,034.1 Dm 87 + + + + + = 0,192 0,21 0,084 0,14 0,192 0,034 Dm 87 + + + + + = 0,852 Dm 87 = Dm 0,0098= Logo, o desvio médio das massas dos pacotes de macarrão na amostra é Dm = 0,0098 kg, ou seja, 9,8 gramas. Observação No último exemplo, foram demonstradas equações longas que não couberam na mesma linha da página. O que é feito nesses casos é a quebra da equação em duas linhas, repetindo o sinal da operação no final na primeira linha e no início da segunda linha. Como tratam‑se de frações, repete‑se o denominador na linha de baixo, lembrando que: a b a b c c c + = + 69 ESTATÍSTICA Note que os cálculos do exemplo anterior envolveram expressões matemáticas grandes, com a soma de diversos termos. Quanto mais dados existirem, mais termos farão parte da soma do desvio médio e de outras estatísticas. Uma forma de facilitar o cálculo do desvio médio é o uso de tabelas. A expressão para o cálculo do desvio médio é: N ii 1 x x Dm N = − = ∑ Separando as etapas do cálculo dessa expressão em colunas de uma tabela, temos o seguinte. Tabela 26 – Exemplo de tabela para o cálculo do desvio médio Dm x = xi |xi‑x| ⋮ ⋮ i ix x .fΣ − = ix xDm N Σ − = = Na tabela 26, preenchem‑se os valores dos dados xi e, em seguida, calcula‑se o valor médio x ao somá‑los e divide‑se tal soma pelo número de dados. Coloca‑se o resultado na primeira linha da tabela. Na sequência, completa‑se a segunda coluna da tabela, subtraindo o valor médio de cada dado, e coloca‑se o resultado, em módulo, na tabela. Por último, somam‑se as linhas calculadas na segunda coluna e divide‑se o resultado pelo número de dados: é obtido, assim, o desvio médio Dm. Se os dados estão em uma distribuição de frequências, o desvio médio é calculado por: N i ii 1 Pm x .f Dm N = − = ∑ O cálculo do desvio médio por essa equação inclui algumas colunas a mais na tabela para o cálculo do desvio médio Dm. 70 Unidade II Tabela 27 – Exemplo de tabela para o cálculo do desvio médio Dm x = Pmi fi |Pmi‑x| |Pmi‑x |.fi ⋮ ⋮ ⋮ ⋮ i iPm x .fΣ − = i iPm x .f Dm ¨ N Σ − = = Na tabela 27, são preenchidos os valores dos pontos médios dos intervalos/classes Pmi e as frequências fi. Em seguida, calcula‑se o valor médio x e o resultado é colocado na primeira linha da tabela. Na sequência, preenche‑se a terceira coluna da tabela, subtraindo o valor médio de cada ponto médio do intervalo/classe, e o valor é colocado, em módulo, na tabela. Multiplicam‑se os resultados da terceira coluna pelas frequências fi e a quarta e última coluna da tabela é preenchida. Por último, somam‑se as linhas que foram calculadas na quarta coluna e divide‑se o resultado pelo número de dados: é obtido, assim, o desvio médio Dm. A seguir, estudaremos outras medidas de dispersão, como a variância e o desvio padrão. 4.3 Variância e desvio padrão O desvio padrão é uma medida da dispersão dos dados em torno da média que considera o quadrado do desvio de cada dado em relação ao valor médio. O desvio padrão é frequentemente indicado pela letra grega σ. O desvio padrão é calculado de forma distinta se temos uma amostra ou uma população. No caso de uma população, o desvio padrão σ de um conjunto de N dados xi, de valor médio x é dado por: ( )2ii 1 x x N = − σ = ∑ Note que o procedimento de cálculo dessa expressão envolve subtrair o valor médio de cada dado e elevar o resultado ao quadrado, somar os resultados dessa diferença ao quadrado para todos os dados, dividir pelo número de dados para, finalmente, calcular a raiz quadrada do resultado. Se os dados são organizados em uma distribuição de frequências fi de ponto médio Pmi, ainda para uma população, o desvio padrão é dado por: 71 ESTATÍSTICA ( )N 2i ii 1 Pm x .f N = − σ = ∑ No caso de uma amostra, o desvio padrão σ de um conjunto de N dados xi, de valor médio x é dado por: ( )N 2ii 1 x x N 1 = − σ = − ∑ Se os dados são organizados em uma distribuição de frequências fi de ponto médio Pmi, ainda para uma amostra o desvio padrão é dado por: ( )N 2i ii 1 Pm x .f N 1 = − σ = − ∑ A variância é indicada por σ2 e é o quadrado do desvio padrão. Novamente, pelo fato de os cálculos do desvio padrão – e, consequentemente, da variância – envolverem somas com vários termos, o uso de tabelas facilita o processo algébrico. Para calcular o desvio padrão de uma amostra de dados, podemos trabalhar com uma tabela similar à seguinte. Tabela 28 – Exemplo de tabela para o cálculo do desvio padrão σ de uma amostra x = xi xi‑x (xi‑x) 2 ⋮ ⋮ ⋮ ( )2ix xΣ − = ( )2ix x N 1 Σ − = − ( )2ix x N 1 Σ − σ = = − 72 Unidade II Note que as etapas de preenchimento da tabela 28 são iguais às etapas de cálculo pela equação. Na tabela, primeiro preenchem‑se os dados xi na primeira coluna, calcula‑se o valor médio e coloca‑se esse valor na primeira linha. Em seguida, calculam‑se os valores da segunda coluna, subtraindo o valor médio de cada dado. Obtêm‑se, então, os valores da terceira coluna, calculando o quadrado dos resultados da segunda coluna. Por fim, somam‑se os resultados da terceira coluna, colocando esses resultados parciais na antepenúltima linha. Dividem‑se tais resultados por N‑1, colocam‑se os resultados na penúltima linha e, finalmente, calculam‑se as raízes dos resultados na penúltima linha, colocando os resultados dos cálculos dos desvios padrões na última linha da tabela. O cálculo para uma população é feito em uma tabela similar, mas as divisões são feitas por N em vez de por N‑1. Para o caso de dados organizados em uma distribuição de frequências, a tabela de cálculo é similar, mas envolve os pontos médios Pmi e as frequências fi de cada classe (ou intervalo) e, por isso, tem algumas colunas a mais. Tabela 29 – Exemplo de tabela para o cálculo do desvio padrão σ de uma amostra x = Pmi fi Pmi‑x (Pmi‑x) 2 (Pmi‑x) 2.fi ⋮ ⋮ ⋮ ⋮ ⋮ ( )2i iPm x .fΣ − = ( )2i iPm x .f N 1 Σ − = − ( )2i iPm x .f N 1 Σ − σ = = − Exemplo de aplicação Para determinar a altura média e o desvio padrão de crianças de 9 anos, foram escolhidas ao acaso cinco crianças dessa idade de uma mesma escola. A altura das crianças é dada na tabela a seguir. Tabela 30 – Alturas de crianças de 9 anos Altura (m) 1,43 1,25 1,49 1,33 1,45 73 ESTATÍSTICA Figura 27 – Crianças medindo suas alturas Disponível em: https://cutt.ly/xMcPE70. Acesso em: 14 nov. 2022. Deseja‑se calcular o desvio padrão das alturas dadas. O primeiro passo é identificar se trata‑se de uma população ou de uma amostra. Como as alturas são de cinco crianças, e não de todas as crianças do universo nessa idade, não há dados da população completa (todas as crianças de 9 anos do universo); portanto, trata‑se de uma amostra. A expressão para calcularmos o desvio padrão de uma amostra é: ( )N 2ii 1 x x N 1 = − σ = − ∑ 74 Unidade II Para facilitar o cálculo, são usadas tabelas, partindo de uma tabela similar à tabela 28, mas com espaço para acomodar os 5 dados que temos. Na tabela a seguir, os dados de altura das crianças já foram colocados. Tabela 31 – Tabela para o cálculo do desvio padrão da altura de crianças de 9 anos (parte 1) x = xi xi‑x (xi‑x) 2 1,43 1,25 1,49 1,33 1,45 ( )2ix xΣ − = ( )2ix x N 1 Σ − = − ( )2ix x N 1 Σ − σ = = − É necessário calcular a altura média, somando todas as alturas e dividindo pelo número de crianças: 5 ii 1 x x 5 == ∑ 1,43 1,25 1,49 1,33 1,45 x 5 + + + + = 6,95 x 5 = x 1,39= Colocando essa informação na tabela, calculando a diferença entre cada dado e o valor médio e colocando o resultado na segunda coluna, temos o que segue:75 ESTATÍSTICA Tabela 32 – Tabela para o cálculo do desvio padrão da altura de crianças de 9 anos (parte 2) x = 1,39 xi xi‑x (xi‑x) 2 1,43 0,04 1,25 ‑0,14 1,49 0,10 1,33 ‑0,06 1,45 0,06 ( )2ix xΣ − = ( )2ix x N 1 Σ − = − ( )2ix x N 1 Σ − σ = = − Elevando os resultados da segunda coluna ao quadrado para preencher a terceira coluna da tabela 32, temos o que segue: Tabela 33 – Tabela para o cálculo do desvio padrão da altura de crianças de 9 anos (parte 3) x = 1,39 xi xi‑x (xi‑x)2 1,43 0,04 0,0016 1,25 ‑0,14 0,0196 1,49 0,10 0,0100 1,33 ‑0,06 0,0036 1,45 0,06 0,0036 ( )2ix xΣ − = ( )2ix x N 1 Σ − = − ( )2ix x N 1 Σ − σ = = − 76 Unidade II Somando todos os resultados da terceira coluna, tem‑se o que é apresentado na tabela a seguir: Tabela 34 – Tabela para o cálculo do desvio padrão da altura de crianças de 9 anos (parte 4) x = 1,39 xi xi‑x (xi‑x) 2 1,43 0,04 0,0016 1,25 ‑0,14 0,0196 1,49 0,10 0,0100 1,33 ‑0,06 0,0036 1,45 0,06 0,0036 ( )2ix xΣ − = 0,0384 ( )2ix x N 1 Σ − = − ( )2ix x N 1 Σ − σ = = − Fazendo a divisão por N‑1, ou seja, por 4 (5 dados ‑ 1), temos o que segue: Tabela 35 – Tabela para o cálculo do desvio padrão da altura de crianças de 9 anos (parte 5) x = 1,39 xi xi‑x (xi‑x) 2 1,43 0,04 0,0016 1,25 ‑0,14 0,0196 1,49 0,10 0,0100 1,33 ‑0,06 0,0036 1,45 0,06 0,0036 ( )2ix xΣ − = 0,0384 ( )2ix x N 1 Σ − − = 0,0096 ( )2ix x N 1 Σ − σ = − = 77 ESTATÍSTICA Calculando, finalmente, a raiz quadrada desse resultado intermediário, chega‑se ao desvio padrão σ Tabela 36 – Tabela para o cálculo do desvio padrão da altura de crianças de 9 anos (parte 6) x = 1,39 xi xi‑x (xi‑x) 2 1,43 0,04 0,0016 1,25 ‑0,14 0,0196 1,49 0,10 0,0100 1,33 ‑0,06 0,0036 1,45 0,06 0,0036 ( )2ix xΣ − = 0,0384 ( )2ix x N 1 Σ − − = 0,0096 ( )2ix x N 1 Σ − σ = − = 0,098 Arredondando o resultado para 2 algarismos significativos, temos = 0,098. Logo, o desvio padrão das alturas dessas crianças de 9 anos é 0,098 metros. Observação Tanto os dados da média quanto do desvio padrão têm as mesmas unidades. Se os dados são de preços em reais, por exemplo, a média e o desvio padrão desses dados também devem ser em reais. 4.4 Interpretação do desvio padrão O desvio padrão é uma estatística que tem como objetivo apontar o espalhamento dos dados em torno do valor médio. Quanto maior o desvio padrão, maior o espalhamento dos dados. 78 Unidade II Exemplo de aplicação Considere os seguintes valores médios e os desvios padrões para os conjuntos de medidas de tempo de resposta de um servidor em uma rede. x = 1,3ms e σ= 0,4 ms x = 1,0 ms e σ= 0,2 ms x = 1,4 ms e σ= 0,1 ms Qual dos conjuntos de dados tem menor espalhamento, ou seja, está mais concentrado em torno do valor médio? O conjunto de dados com menor espalhamento é o com menor desvio padrão, ou seja, o conjunto de dados com x = 1,4 ms e σ = 0,1 ms. Saiba mais Para compararmos conjuntos de dados que apresentam valores de média aritmética bastante diferentes entre si, uma medida de dispersão mais adequada seria o coeficiente de variação (CV). O CV analisa a dispersão em termos relativos, geralmente expresso como uma taxa percentual. Quanto menor for o valor do CV, mais homogêneos serão os dados do conjunto – ou seja, menor será a dispersão em torno da média. Essa medida é especialmente útil quando compararmos conjuntos de dados com unidades de medidas distintas. Você pode ler a respeito dessa medida de dispersão em: RIGONATTO, M. Coeficiente de variação. Mundo Educação, São Paulo, 25 nov. 2015. Disponível em: https://cutt.ly/7MIIMcr. Acesso em: 14 nov. 2022. 79 ESTATÍSTICA Resumo Começamos esta unidade estudando medidas de tendência central. As medidas de tendência central são usadas para representar o conjunto de dados em um único valor. São medidas de tendência central a média, a moda e a mediana. A média de um conjunto de dados xi costuma ser indicada por <x> ou por x. Neste livro‑texto, usamos a notação x para representar a média. A média aritmética simples de N dados é obtida somando‑se esses dados e dividindo‑se o resultado da soma pelo número de dados N. Matematicamente, temos: N ii 1 x x N == ∑ Na média ponderada, cada dado é multiplicado por um peso pi. Se temos N medidas xi, cada uma associada a um peso pi, a média ponderada é calculada por: N i ii 1 N ii 1 p .x x p = = = ∑ ∑ Se temos N medidas xi, organizadas em classes (ou intervalos) de ponto médio Pmi e frequência fi, a média é calculada por: N i ii 1 N ii 1 Pm .f x f = = = ∑ ∑ Note que, se os dados estão organizados em frequências absolutas, a soma das frequências é igual ao número de dados N. Se os dados estão organizados em frequências relativas, a soma das frequências é igual a 1. A mediana é o valor central de um conjunto de dados quando esses são organizados em um rol, seja ele crescente, seja ele decrescente. Se temos uma quantidade ímpar de dados, o valor central é determinado sem problemas. Se temos um número par de dados, a mediana é a média dos dois valores centrais. A mediana é frequentemente indicada por Md. 80 Unidade II A mediana é útil quando temos valores discrepantes (conhecidos como outliers) e não queremos que esses valores afetem o valor médio. A média aritmética é facilmente afetada por outliers, enquanto a mediana, nesse sentido, é uma estatística mais robusta, menos afetada por outliers. Quando calculamos a mediana de dados organizados como uma distribuição de frequências, adotamos os seguintes passos: • somamos as frequências do conjunto de dados para obter o tamanho da amostra ou da população; • encontramos o valor central da distribuição de frequências; • localizamos em qual intervalo essa frequência está inclusa; • calculamos a mediana usando a expressão a seguir. anteriores Md N f 2Md Li .A f − ∑ = + Na equação, temos o que segue. • Li = limite inferior da classe que contém a mediana. • N = tamanho da amostra ou da população. • ∑fanteriores = soma das frequências das classes anteriores à classe que contém a mediana. • A = amplitude da classe que contém a mediana. • fMd = frequência da classe que contém a mediana. Definimos como moda o valor mais frequente de uma distribuição de dados, ou seja, a moda é o valor com maior número de ocorrências. A moda costuma ser indicada por Mo. A determinação da moda de uma distribuição pode não ser tão simples, pois uma distribuição pode não ter apenas uma moda. Por exemplo, se uma distribuição de dados tem apenas uma moda, ela é dita unimodal. Se uma distribuição de dados tem duas modas (dois valores igualmente 81 ESTATÍSTICA frequentes), ela é dita bimodal. Podemos ter, ainda, distribuições multimodais ou plurimodais, com 3 ou mais modas. Em seguida, estudamos as medidas de dispersão. As medidas de dispersão têm como objetivo indicar o espalhamento dos dados, ou seja, verificar se os dados estão mais concentrados perto do valor médio ou mais espalhados. As medidas de dispersão que estudamos foram a amplitude total, o desvio médio simples e o desvio padrão. A amplitude total, indicada por A, é calculada pela diferença entre o maior dado e o menor dado do conjunto. Indicando um elemento qualquer do conjunto de dados como xi, com o menor dado sendo xmin e o maior dado sendo xmax, temos: max minA x x= − Caso os dados estejam organizados em uma distribuição de frequências, podemos determinar a amplitude total de duas formas, conforme descrito a seguir. A amplitude A é dada pela diferença entre o ponto médio da maior classe e o ponto médio da menor classe. A amplitude A é dada pela diferença entre o limite superior da maior classe e o limite inferior da menor classe. O desvio médio simples é um indicador de dispersão dos dados que considera o quanto cada dado xi se afasta do valor médio x. O desvio médio simples é indicado por Dm e é calculado por: N ii 1 x x Dm N = − = ∑ Na equação, N é o número de dados da populaçãoou da amostra. Se os dados estão organizados em uma distribuição de frequências, o desvio médio da distribuição é dado por: N i ii 1 Pm x .f Dm N = − = ∑ 82 Unidade II Na equação, Pmi é o ponto médio de cada classe de frequência fi. Como no caso anterior, temos N dados e valor médio x. O desvio padrão é uma medida da dispersão dos dados em torno da média que considera o quadrado do desvio de cada dado em relação ao valor médio. O desvio padrão é frequentemente indicado pela letra grega σ. O desvio padrão é calculado de forma distinta se temos uma amostra ou uma população. No caso de uma população, o desvio padrão σ de um conjunto de N dados xi de valor médio x é dado por: ( )N 2ii 1 x x N = − σ = ∑ Se os dados são organizados em uma distribuição de frequências fi de ponto médio Pmi, ainda para uma população, o desvio padrão é dado por: ( )N 2i ii 1 Pm x .f N = − σ = ∑ No caso de uma amostra, o desvio padrão σ de um conjunto de N dados xi de valor médio x é dado por: ( )N 2ii 1 x x N 1 = − σ = − ∑ Se os dados são organizados em uma distribuição de frequências fi de ponto médio Pmi, ainda para uma amostra o desvio padrão, temos: ( )N 2i ii 1 Pm x .f N 1 = − σ = − ∑ A variância é indicada por σ2 e é o quadrado do desvio padrão. Vimos que o uso de tabelas pode ser útil tanto no cálculo do desvio médio quanto no cálculo do desvio padrão. 83 ESTATÍSTICA Exercícios Questão 1. A empresa Software Para Você fornece soluções computacionais para empresas que atuam em várias áreas do comércio. No gráfico da figura seguir, temos a distribuição do tempo, em horas, que os desenvolvedores dessa empresa levaram para responder às demandas dos 200 clientes atendidos no último mês. Tempo para o desenvolvimento da solução computacional (horas) 45% 40% 35% 30% 25% 20% 15% 10% 5% 0% Pe rc en tu al d e cl ie nt es 10 20 30 40 50 60 70 1% 3% 5% 6% 16% 28% 41% Figura 28 O tempo médio que os desenvolvedores da empresa Software Para Você levaram para responder às demandas dos 200 clientes atendidos no último mês é de: A) 35,0 horas. B) 50,0 horas. C) 37,8 horas. D) 44,4 horas. E) 50,5 horas. Resposta correta: alternativa D. Análise da questão A quantidade total de clientes atendidos no último mês foi igual a 200. 84 Unidade II Pela leitura do gráfico do enunciado, podemos concluir que, dos 200 clientes: • deles (1% de 200) demandaram 10 horas para a resposta às demandas; • deles (3% de 200) demandaram 20 horas para a resposta às demandas; • 32 deles (16% de 200) demandaram 30 horas para a resposta às demandas; • 56 deles (28% de 200) demandaram 40 horas para a resposta às demandas; • 82 deles (41% de 200) demandaram 50 horas para a resposta às demandas; • 10 deles (5% de 200) demandaram 60 horas para a resposta às demandas; • 12 deles (6% de 200) demandaram 70 horas para a resposta às demandas. Os cálculos feitos podem ser resumidos na tabela 37. Tabela 37 – Frequência de clientes atendidos por tempo Tempo (horas) Frequência de clientes 10 2 20 6 30 32 40 56 50 82 60 10 70 12 Total 200 clientes Na tabela 37 temos o total de 200 clientes. Para calcularmos o tempo médio, precisamos somar todos os 200 valores da tabela e dividir essa soma por 100. Observe que, com base na tabela: • 10 (horas) é um valor que precisa ser somado 2 vezes; • 20 (horas) é um valor que precisa ser somado 6 vezes; • 30 (horas) é um valor que precisa ser somado 32 vezes; • 40 (horas) é um valor que precisa ser somado 56 vezes; • 50 (horas) é um valor que precisa ser somado 82 vezes; 85 ESTATÍSTICA • 60 (horas) é um valor que precisa ser somado 10 vezes; • 70 (horas) é um valor que precisa ser somado 12 vezes. Logo, o tempo médio é igual a 44,4 horas, conforme calculado a seguir: 10.2 20.6 30.32 40.56 50.82 60.10 70.12 Tempo médio 200 + + + + + + = 20 120 960 2240 4100 600 840 8880 Tempo médio 44,4 200 200 + + + + + + = = = Tempo médio 44,4= Questão 2. O responsável pela ouvidoria da empresa ABC fez um levantamento sobre o número de reclamações recebidas pelos funcionários do setor no mês corrente e resumiu as informações obtidas na tabela a seguir. Tabela 38 – Levantamento feito pelo responsável pela ouvidoria da empresa ABC Nome do funcionário Número de reclamações recebidas Ana 3 Bianca 2 Beatriz 3 Catarina 2 Diego 1 Elsa 5 Fábio 1 Gabriela 2 Júlia 3 Laila 2 Marcelo 0 Mariana 1 Patrícia 2 Paulo 2 Rafael 3 Sofia 2 Tobias 2 86 Unidade II Com base na tabela 38 e nos seus conhecimentos, assinale a alternativa que indica correta e respectivamente a moda, a média e a mediana do levantamento apresentado. A) 2; 2; 2 B) 2; 2,12; 2 C) 5; 2,12; 2,5 D) 3; 2; 5 E) 5; 2,12; 2 Resposta correta: alternativa B. Análise da questão Vamos começar nossa análise respondendo às perguntas a seguir: • Há funcionários que não receberam reclamações no mês corrente? Sim, apenas um funcionário, Marcelo. • Há funcionários que receberam uma reclamação no mês corrente? Sim, 3 funcionários, Diego, Fábio e Mariana. • Há funcionários que receberam duas reclamações no mês corrente? Sim, 8 funcionários, Bianca, Catarina, Gabriela, Laila, Patrícia, Paulo, Sofia e Tobias. • Há funcionários que receberam três reclamações no mês corrente? Sim, 4 funcionários, Ana, Beatriz, Júlia e Rafael. • Há funcionários que receberam quatro reclamações no mês corrente? Não, nenhum (“0 funcionários”). • Há funcionários que receberam cinco reclamações no mês corrente? Sim, uma funcionária, Elsa. Com essas respostas, podemos elaborar a tabela a seguir, que mostra as quantidades de funcionários que receberam 0, 1, 2, 3, 4 ou 5 reclamações no mês corrente. Além disso, adicionamos os nomes dos funcionários. 87 ESTATÍSTICA Tabela 39 – Quantidades de reclamações recebidas e quantidades de funcionários Quantidade de reclamações Quantidade de funcionários Nomes dos funcionários 0 1 Marcelo 1 3 Diego, Fábio e Mariana 2 8 Bianca, Catarina, Gabriela, Laila, Patrícia, Paulo, Sofia e Tobias 3 4 Ana, Beatriz, Júlia e Rafael 4 0 – 5 1 Elsa Total + 3 + 8 + 4 + 0 + 1 = 17 Pela tabela 39, vemos, por exemplo, que, dos 17 funcionários, 3 receberam uma reclamação e nenhum recebeu 4 reclamações. Vamos chamar de frequência absoluta de cada medida, indicada por FA, a quantidade de funcionários que recebeu dado número de reclamações, indicado por x. Vejamos: • a FA de 0 reclamações é igual a 1 (se x = 0, FA = 1); • a FA de 1 reclamação é igual a 3 (se x = 1, FA = 3); • a FA de 2 reclamações é igual a 8 (se x = 2, FA = 8); • a FA de 3 reclamações é igual a 4 (se x = 3, FA = 4); • a FA de 4 reclamações é igual a 0 (se x = 4, FA = 0); • a FA de 5 reclamações é igual a 1 (se x = 5, FA = 1). Podemos calcular a frequência relativa, indicada por FR, de cada quantidade de reclamações recebidas pelos funcionários. Para isso, dividimos a frequência absoluta (FA) pelo número total N de funcionários, que é 17. Ou seja: FA FR N = Na tabela a seguir, temos as frequências absolutas e relativas do caso em estudo. 88 Unidade II Tabela 40 – Quantidade de reclamações (x), frequência absoluta (FA) e frequência relativa (FR) Quantidade de reclamações (x) Frequência absoluta (FA) Frequência relativa (FR), sendo FR = FA/N 0 1 1/17 = 0,05882 1 3 3/17 = 0,17647 2 8 8/17 = 0,47059 3 4 7/17 = 0,23529 4 0 0/17 = 0 5 1 1/17 = 0,05882 Total N = 1 + 3 + 8 + 4 + 0 + 1 = 17 1 3 8 4 0 1 Soma 1 17 17 17 17 17 17 = + + + + + = Vale notar que, em qualquer conjunto de dados, a soma de todas as frequências relativas dá 1. Podemos fazer um cálculo bastante semelhante ao feito para determinarmos a frequência relativa, multiplicando‑a por 100%. Desse modo, obtemos os percentuais de cada quantidade de reclamações recebidas, indicada por P%. Ou seja: P% = FR.100 Na tabela a seguir, temos as frequências absolutas, as frequências relativas e os percentuais do caso em estudo. Tabela 41 – Quantidade de reclamações, frequência absoluta,frequência relativa e percentual Quantidade de reclamações (x) Frequência absoluta (FA) Frequência relativa (FR) Percentual (P%), sendo P% = FR.100 0 1 0,05882 5,882% 1 3 0,17647 17,647% 2 8 0,47059 47,059% 3 4 0,23529 23,529% 4 0 0 0% 5 1 0,05882 5,882% Soma N = 17 1 100% Podemos, de certa forma, “resumir” o conjunto de dados em valores como a moda, a média e a mediana – conhecidas como medidas de tendência central. A observação do conjunto de dados que “aparece mais vezes”, ou seja, a de maior FA é a moda do conjunto de dados. Neste caso, vemos, pela tabela 41, que o valor que aparece mais vezes é 2 reclamações, com FA = 8. Logo, a moda da quantidade de reclamações recebidas no mês corrente pelos funcionários da empresa ABC é 2. 89 ESTATÍSTICA Para acharmos a média, fazemos assim: somamos as quantidades multiplicadas pelas respectivas frequências e dividimos essa soma pelo total. Com base na tabela 41, concluímos que a média do número de reclamações é 2,12, pois: 0 1 1 3 2 8 3 4 4 0 5 1 36 Média 17 17 × + × + × + × + × + × = = Média 2,12= Essa média de 2,12 é um valor teórico, pois não há número fracionário de reclamações. O valor 2,12 corresponde ao “número” de reclamações que cada funcionário teria recebido se todos os funcionários tivessem recebido o mesmo número de reclamações. Para acharmos a mediana, ordenamos todas as observações e indicamos o valor central. Visto que há o total de 17 observações, a mediana é o valor central, que corresponde à nona observação, conforme indicado na tabela a seguir. Ou seja, no caso em estudo, a mediana da quantidade de reclamações recebidas no mês corrente pelos funcionários da empresa ABC é 2. Tabela 42 – Quantidade (ordenada) de reclamações e quantidade de observações. Quantidade (ordenada) de reclamações Quantidade de observações 0 8 observações 1 1 1 2 2 2 2 2 Valor central (9ª observação): 2 2 8 observações 2 2 3 3 3 3 3 Logo, no caso em estudo, a moda é 2, a média é 2,12 e a mediana é 2.
Compartilhar