Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística e Probabilidade PROF. Alan Gusmão Aula 4- Medidas de Dispersão Comparação entre o clima de duas cidades - ambas com temperatura média de 24°C - dúvida – será que a variação é a mesma? - sim – variabilidade entre mínimas e máximas iguais - não – uma delas apresenta maior variabilidade – maior ocorrência de extremos – mais frio e mais quente 2 Medidas de Dispersão Quando comparamos vários conjuntos de números, além da informação com relação ao “centro” do conjunto, devemos também avaliar o grau de dispersão dos dados. Essa dispersão nos indicará se os valores estão relativamente próximos uns dos outros ou não. Antigamente, quando íamos aos bancos, deveríamos formar filas separadas para os diversos caixas. Hoje em dia, normalmente, apenas uma fila é formada. Apesar desse fato não ter alterado o tempo médio de espera, fez com que a variação de tempo que passamos na fila tenha diminuído consideravelmente, pois a partir daí o tempo de espera não mais dependia da eficiência da pessoa que operava o caixa da fila onde você estava nem se as pessoas que estavam na sua frente iriam dar mais ou menos trabalho aos caixas. Com isso, os clientes ficam muito mais satisfeitos. Observe a importância de conhecermos a variação dos dados. estudaremos agora a amplitude dos dados, a variância e o desvio-padrão de um conjunto de dados. 3 Medidas de Dispersão Medidas de Dispersão • Amplitude • Desvio Médio • Variância • Desvio Padrão • Coeficiente de Variação ( C.V.) A amplitude, ou R, é a diferença entre o maior e o menor valor incluso no conjunto de dados. Dessa forma, quando H representa o maior valor do grupo e L representa o menor valor, a amplitude dos dados será: R = H - L 5 Amplitude 6 Amplitude 7 Desvio Médio Absoluto 8 Medidas de Dispersão - Notamos, então, a conveniência de serem criadas medidas que sumarizem a variabilidade de um conjunto de observações e que nos permita, por exemplo, comparar conjuntos diferentes de valores, como os dados acima, segundo algum critério estabelecido. - Um critério frequentemente usado para tal fim é aquele que mede a dispersão dos dados em torno de sua média, e duas medidas são as mais usadas: desvio médio e variância. O princípio básico é analisar os desvios das observações em relação à média dessas observações. 9 Medidas de Dispersão O resumo de um conjunto de dados por uma única medida representativa de posição central esconde toda a informação sobre a variabilidade do conjunto de observações. Por exemplo, para os dados grupo A (variável X): 3, 4, 5, 6, 7 grupo B (variável Y): 1, 3, 5, 7, 9 grupo C (variável Z): 5, 5, 5, 5, 5 grupo D (variável W): 3, 5, 5, 7 grupo E (variável V): 3, 5, 5, 6, 6 temos todas as médias iguais a 5. 10 Medidas de dispersão Medidas de Dispersão Variância A variância da amostra, representada por s2, é obtida somando-se os quadrados dos desvios, em relação à sua média e dividindo o resultado pelo número de observações menos um. Σ ( Xi – Média) 2 __________________ ( n – 1) Medidas de Dispersão • DESVIO -PADRÃO O desvio padrão é a raiz quadrada do valor obtido para a variância. Ele é o valor que quantifica a dispersão dos eventos sob distribuição normal, ou seja, a média das diferenças entre o valor de cada evento e a média central. S = (Σ (Xi - X)² Fi )/ Σ Fi ) ^ (1/ 2) - O desvio médio (dm) e a variância (var) são definidos por respectivamente. Para o grupo A temos • dm(X) = 6/5 = 1,2, • var(X) = 10/5 = 2,0, enquanto para o grupo D temos • dm(W) = 4/4 = 1,0, • var(W) = 8/4 = 2,0. 13 Medidas de Dispersão - Podemos dizer, então, que, segundo o desvio médio, o grupo D é mais homogêneo que A, enquanto ambos são igualmente homogêneos, segundo a variância. - Sendo a variância uma medida de dimensão igual ao quadrado da dimensão dos dados (por exemplo, se os dados são expressos em cm, a variância será expressa em cm2), pode causar problemas de interpretação. Costuma-se usar, então, o desvio padrão, que é definido como a raiz quadrada positiva da variância. 14 Medidas de Dispersão - Para o grupo A o desvio padrão é - Suponha que observemos n1 vezes o valor x1 etc., nk vezes o valor xk da variável X. Então, 15 Medidas de Dispersão Medidas de Dispersão Coeficiente de Variação - Corresponde à relação entre o desvio-padrão e a média. Medidas de Dispersão • Calcule o desvio-padrão da amostra: 2, 2, 7, 8 e 9 e marque a opção correta: Fórmula : A) 5,6. B) 3,36. C) 7,6. D) 1,30. E) 1,70. Medidas de Dispersão Segue abaixo os dados agrupados de uma sondagem de avaliação dos alunos em uma prova de concurso, composta por 30 questões, no qual a freqüência é relativa aos a quantidade de alunos que fizeram o concurso. Calcule o desvio padrão do número de questões que os alunos acertaram. • Classes fi Fi 0 I----- 6 30 30 6 I----- 12 25 55 12 I----- 18 15 70 18 I----- 24 10 80 24 I----- 30 6 86 ANÁLSE BIDIMENSIONAL - Frequentemente estamos interessados em analisar o comportamento do conjunto de duas ou mais variáveis aleatórias. - Um dispositivo bastante útil para se verificar a associação entre duas variáveis quantitativas, ou entre dois conjuntos de dados, é o gráfico de dispersão. - Suponha as variáveis X e Y extraídas de um estudo da carteira de clientes de uma companhia de seguros. X: número de anos de serviço de um agente da companhia de seguros Y: número de clientes atendidos por um agente da companhia de seguros. 20 Análise Bidimensional 21 Análise Bidimensional - Existem muitos tipos de associações possíveis; estudaremos somente o tipo de relação mais simples, que é a linear. - Definiremos uma medida que avalia o quanto a nuvem de pontos no gráfico de dispersão aproxima-se de uma reta. - Esta medida será definida de modo a variar num intervalo finito, especificamente, de -1 a +1. 22 Análise Bidimensional - O coeficiente de correlação (linear) entre duas variáveis é a medida do grau de associação (linear) entre elas e também da proximidade dos dados a uma reta. - Correlação, também chamada de coeficiente de correlação, indica a força e a direção do relacionamento linear entre duas variáveis aleatórias. No uso estatístico geral, correlação se refere a medida da relação entre duas variáveis, embora correlação não implique causalidade. 23 Análise Bidimensional Definição: Dados n pares de valores (X1, Y1), (X2, Y2), (Xn, Yn), chamaremos de coeficiente de correlação entre as duas variáveis X e Y a 24 Análise Bidimensional Além do coeficiente de correlação entre duas variáveis existe, também, o calculo da covariância. A covariância entre duas variáveis aleatórias reais X e Y, é definida como a medida de como duas variáveis variam conjuntamente. A covariância é por vezes chamada de medida de dependência linear entre as duas variáveis aleatórias. Mede o grau de dependêncialinear entre duas variáveis. A covariância é muito usada em finanças para análise de rentabilidade de carteiras de investimento. 25 Análise Bidimensional - Definição: Dados n pares de valores (X1, Y1), (X2, Y2), (Xn, Yn), chamaremos de covariância entre as duas variáveis X e Y a: 26 Análise Bidimensional - Ou seja, a média dos produtos dos valores centrados das variáveis. - Com essa definição, o coeficiente de correlação pode ser visto como
Compartilhar