Buscar

Aula 4 - Medidas de Tendência Central e Dispersão 1

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

*
Medidas de Posição ou Tendência Central e de Dispersão
Referências: 
	BUSSAB e MORETTIN, Cap. 2.
	WEBSTER, Cap. 3.
	
*
1 - Medidas de posição ou tendência central 
Vimos que descrever os dados por meio de tabelas de frequência e diagramas de ramo e folhas é uma estratégia muito eficaz para nos mostrar o comportamento de uma variável.
Às vezes, porém, é preciso resumir ainda mais esses dados em um ou dois valores que representem o comportamento de todas as observações em análise. 
Quando usamos um só valor para representar um conjunto de dados, reduzimos ao máximo as informações, por meio de uma dessas medidas de posição ou tendência central: média, mediana ou moda. 
*
*
Média
Média: medida de tendência central geralmente pensada como sendo a média aritmética. Para calcular a média de idade dos alunos da sua turma, basta somar todas as idades e dividir pelo número de observações. 
A média de uma população é o parâmetro μ (mi). Se existem N observações na população, a média de determinada variável numérica é calculada por:
*
*
Mediana 
Mediana: é o valor que ocupa a posição central da série de observações, quando estas estão ordenadas de forma crescente. Metade das observações está acima da mediana, e a outra metade está abaixo. 
Exemplo: considere uma variável assumindo os seguintes valores {12, 4, 4, 3, 6, 11, 10}. Para achar a mediana, primeiro ordenamos os dados: 3, 4, 4, 6, 10, 11, 12. Temos 7 observações: um número ímpar. Neste caso, para achar a mediana usamos a fórmula: (número de observações+1)/2 = (7+1)/2 = 4. A mediana é a observação na 4ª posição: 6.
Se o número de observações for par, tiramos a média das duas posições centrais. 
Exemplo: calcule e mediana do conjunto {31, 7, 5, 18}. 
*
*
Moda 
Moda: a observação modal é a observação que ocorre com mais frequência. 
Exemplo: considere a variável Z número de filhos por professor que vimos aula passada:
Neste caso, a moda é o 2, o valor 
que ocorre com maior frequência.
Em alguns casos, pode haver mais de 
uma moda. Ou seja, a distribuição dos 
valores pode ser bimodal, trimodal, etc.
Pode ainda ser que não haja moda!
*
*
Média Ponderada
No cálculo da média aritmética, consideramos que todas as observações tem pesos iguais. Porém, em alguns casos nós vamos querer dar pesos maiores para algumas observações na hora de calcular a média. Neste caso, usamos a média ponderada.
Exemplo: para calcular a sua nota final em estatística, você vai ter que ponderar as notas das provas P1, P2 e P3 e a nota total das listas (L) pelos pesos: 25%, 25%, 30% e 20% respectivamente. Note que a nota de maior peso é a da prova P3. O cálculo da média final do aluno i, pensando numa escala de notas de 0 a 100, fica assim:
*
*
Média Geométrica 
A média geométrica pode ser usada para mostrar a média das mudanças percentuais numa série de números positivos.
Para uma série de n números positivos, a média geométrica (MG) é calculada tirando-se a raiz enésima do produto desses n números: 
*Nota: a média geométrica será sempre menor que a média aritmética, com exceção dos casos em que os números da série forem todos iguais entre si. Nestes casos, as duas médias serão iguais!
Exemplo: O diretor da empresa MMI deseja determinar a taxa média de sua receita com base nos registros de 2008 a 2012. Se a taxa média de crescimento de sua receita for menor do que a média da indústria, que é de 10%, ele irá mudar de ramo. Ele deve fazer isso? 
*
*
Média Geométrica: exemplo 
MÉDIA ARITMÉTICA : (1,1 + 1,2 + 0,91 + 1,3)/4 = 1,127273 ou aproximadamente 12,73% de crescimento ao ano. 
MÉDIA GEOMÉTRICA: raiz quarta do produto (1,1*1,2*0,91*1,3 ) = 1,117587 ou aproximadamente 11,76% de crescimento ao ano. 
Portanto, se você aplicar uma taxa de crescimento médio de 12,73% ao ano ao valor inicial das receitas em 2008, a receita em 2012 estimada seria 80.739,49. Por sua vez, se você aplicar a taxa de 11,76%, a receita em 2012 estimada seria exatamente 78.000!
*
*
Comparando Média, Mediana e Moda 
Como medida de posição central, a média é a medida mais usada, pois é fácil de calcular e interpretar. Porém ela é sensível a valores extremos. 
A mediana, por sua vez, não é afetada por mudanças drásticas nos valores extremos.
Exemplo: considere o conjunto de dados {100, 20, 37, 50, 81}. A média, neste caso, é 57,3. Se ordenarmos de forma crescente os dados (20, 37, 50, 81, 100) vemos facilmente que a mediana é 50. Agora, se o número 100 for alterado para 1.100, a média saltará para 257,6 enquanto a mediana continuará sendo o 50.
A moda também não é sensível a valores extremos, mas nos casos em que não há moda, como no exemplo acima, ou que há mais de uma moda, o seu uso pode gerar confusão.
*
*
Exercício
O dono de uma loja de sapatos precisa de uma medida resumo sobre o número que seus clientes calçam para fazer as encomendas junto ao fornecedor. Qual medida você recomenda que ele use?
Um fabricante de móveis quer confeccionar portas para serem vendidas a um grande varejista da região. Qual medida de posição central ele deve levar em conta para as dimensões de suas portas?
*
*
2 – Medidas de Dispersão
O resumo de um conjunto de dados por uma única medida representativa de posição central esconde toda a informação sobre a variabilidade do conjunto de observações. 
Tão útil como saber onde se localiza o centro de um conjunto de dados é saber como esses dados estão dispersos ao redor deste centro.
Medidas de dispersão: medem a extensão em que as observações individuais estão espalhadas em torno da média. 
Exemplo: considere os três conjunto de dados (0, 5, 10) , (4, 5, 6) e (5, 5, 5). Se considerarmos apenas as médias desses conjuntos, que é 5 para todos, concluiríamos que eles são iguais. Porém, repare como os dados se distribuem de forma diferente em torno da média nos três conjuntos... Como resumir essa dispersão?
*
*
Amplitude
A amplitude é a mais simples das medidas de dispersão: ela é a diferença entre o maior e o menor valor das observações.
No exemplo dos três conjuntos (0, 5, 10) , (4, 5, 6) e (5, 5, 5). Suas amplitudes são 10, 2 e 0 respectivamente. Então sabemos que no 1º conjunto os dados apresentam uma média de dispersão maior do que no 2º conjunto, enquanto que no 3º conjunto a dispersão é zero: todos os valores são iguais! 
*
*
Variância e Desvio Padrão de uma População
A variância e sua raiz quadrada, o desvio padrão, são medidas mais úteis de dispersão dos dados do que a amplitude, pois esta só leva em consideração duas das centenas de observações que o conjunto de dados pode ter. 
A variância e o desvio padrão, por sua vez, nos dão informações mais ricas sobre como os dados estão espalhados em torno da média.
Definição de variância: ela é a média dos quadrados dos desvios em torno da média. Ou seja: você primeiro tem que calcular a média, depois os desvios de cada observação em relação à média, depois elevá-los todos ao quadrado, somá-los e tirar a média (dividindo pelo total de observações)! 
Pergunta: Se queremos uma medida do desvio das observações em torno da média, por que simplesmente não somamos todos os desvios e tiramos sua média? Por que, afinal, elevar ao quadrado??? 
*
*
Variância e Desvio Padrão de uma População
Considere o conjunto de dados (3, 2, 0, 1).
Calculando a média desses dados, teremos: (3+2+0+1)/4 = 6/4 = 1,5.
Vamos agora calcular os desvios de cada observação em torno da média:
Notem que, ao somarmos os desvios puros, a soma vai dar zero (SEMPRE), pois os valores negativos se anulam com os positivos.
Por outro lado, se elevamos os desvios ao quadrado, eliminamos os valores negativos, e daí a soma não dá mais zero! Podemos também extrair a raiz dos desvios ao quadrado, para diminuir a dimensão dessa soma de desvios!
*
*
Variância e Desvio Padrão de uma População
Variância: é a média dos quadrados dos
desvios das observações em relação à média. Denotamos a variância populacional por σ2 :
* Onde N é o tamanho da população.
Desvio Padrão: é a raiz quadrada da variância. Denotamos o desvio padrão da população por σ:
*
*
Variância e Desvio Padrão de uma Amostra
Como raramente trabalhamos com a população, os parâmetros σ2 e σ também não são calculados. O que se faz geralmente é trabalhar com uma amostra e calcular suas estatísticas, que são estimativas dos parâmetros.
A variância e o desvio padrão de uma amostra são medidas de dispersão dos dados em torno da média da amostra denotados por s2 e s, respectivamente. As formas de cálculo são similares às da população:
Para a variância:
* Onde n é o tamanho da amostra e a média da amostra!
Para o desvio: 
*
*
Por que dividimos por (n-1) a variância da amostra? 
Devido a perda de graus de liberdade: O número de graus de liberdade, em qualquer operação estatística, é igual ao número de observações menos o número de restrições colocadas nas observações. Uma restrição é qualquer valor que deve ser calculado a partir das observações. 
Exemplo: assuma n=4 (tamanho da amostra) cuja média deve ser =10. Sendo assim você tem liberdade de escolher quaisquer 3 números, mas o quarto número é predeterminado, pois a média tem que dar 10. Como a equação mostra, a variância usa o valor de que funciona como uma restrição, reduzindo o grau de liberdade em 1. Por isso divide-se por n-1. 
Porque na amostra, em geral, o desvio é subestimado: em geral na amostra há menor dispersão dos dados em torno da média do que na população. Assim, estaremos sempre subestimando a variância e o desvio padrão verdadeiro ao calculá-los com base numa amostra. Uma forma de corrigir essa subestimação é dividindo s2 por um número um pouco menor que n: (n-1).
*
*
Um revisor precisa estudar o número de erros de impressão de um livro. Para isso escolheu uma amostra de 50 páginas, encontrando o número de erros por página da tabela abaixo. 
Qual o número médio de erros de impressão por página?
E o número mediano?
Qual é o desvio padrão?
Faça uma representação gráfica para a distribuição.
Se o livro tem 500 páginas, qual o número total de erros esperado no livro?
*
*
As taxas de juros recebidas por 10 ações durante um certo período foram (medidas em porcentagem) 2,59; 2,64; 2,60; 2,62; 2,57; 2,55; 2,61; 2,50; 2,63; 2,64. Calcule a média, a mediana e o desvio padrão. 
Numa pesquisa realizada com 100 famílias, levantaram-se as seguintes informações: 
Qual a mediana do número de filhos?
E a moda?
Que problemas você enfrentaria para calcular a média? Faça alguma suposição e encontre-a. 
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Outros materiais