Aula- estatística estocástico
51 pág.

Aula- estatística estocástico


DisciplinaEstatística I27.026 materiais128.256 seguidores
Pré-visualização2 páginas
Revisão de Estatística 
(Aplicada a Análise de 
Desempenho) 
Profa. Jussara M. Almeida 
1o Semestre de 2014 
Por quê? 
\u2022\u202f Modelagem probabilística 
\u2022\u202f Avaliação dos resultados 
\u2013\u202f Qual a probabilidade do tempo de residência no disco 1 
ser inferior a 0.5 segundo? 
\u2022\u202f Depende da distribuição de probabilidade do tempo de 
residência!!! 
\u2013\u202f O tempo médio de resposta é uma boa estimativa do 
desempenho do sistema? 
\u2022\u202f Depende da variabilidade de R: variância, desvio padrão 
\u2022\u202f Caracterização da carga 
\u2013\u202f Como modelar o tempo entre chegada de requisições no 
servidor? 
Variável Aleatória 
\u2022\u202f Uma variável aleatória (VA) X em um espaço 
amostral s é uma função X: S\u2192\u211c que atribui um 
número real a cada ponto amostral em S 
 ou 
\u2022\u202f Uma variável aleatória é uma variável que recebe um 
valor numérico como resultado de um experimento. 
Exemplos de Variável Aleatória 
\u2022\u202f Tempo entre chegadas de clientes em um servidor 
\u2022\u202f # visitas à CPU de uma requisição 
\u2022\u202f Tempo de residência no sistema 
\u2022\u202f Seja Rn o tempo de residência de um cliente j que 
encontra n clientes na fila no momento de chegada 
\u2013\u202f Xi = tempo de serviço de cliente i (iid) 
\u2013\u202f Y = tempo residual do cliente em serviço quando o dado 
 cliente j chega 
\u2013\u202f Então: 
\u2022\u202f Ro = Xi, 
\u2022\u202f Rn = Y + X1 + X2 + ... + Xn, n \u2265 1 
Distribuição de Probabilidade de 
uma Variável Aleatória 
\u2022\u202f Função de distribuição acumulada (CDF) F da VA 
X é definida para todos os números reais b, 
b \u2208\u211c, como: 
 F(b) = P(X \u2264 b) 
\u2022\u202f Propriedades de uma CDF 
 F é uma função não decrescente: se a < b \u21d2 F(a) < F(b) 
\u2022\u202f CDF é uma caracterização completa de uma VA. 
Exemplo de CDF e CCDF 
Intervalo de tempo entre check-ins 
de um mesmo usuário no Foursquare 
CDF: P(X <= x) 
Número de check-ins 
por usuário do Foursquare 
CCDF : P (X> x) 
Variáveis Aleatórias Discretas 
\u2022\u202f Pode assumir um número contável de valores 
\u2022\u202f Função Probabilidade de Massa (PMF) p(): 
 p(a) = P(X = a) 
\u2022\u202f Propriedades: 
\u2013\u202f p(xi) \u2265 0, i = 1, 2, ... 
\u2013\u202f p(x) = 0, para todos outros valores de x 
\u2013\u202f 
\u2022\u202f CDF e PMF: 
Função de Probabilidade de Massa 
\u2022\u202f Representação gráfica da PMF 
\u2013\u202f Seja X o número de visitas que cada requisição 
faz ao disco 
\u2013\u202f p(X): p(0) = 0.25 p(1) = 0.5 p(2) = 0.25 
Histograma 
\u2022\u202f Outra representação gráfica equivalente 
\u2013\u202f Plota o número de vezes que a saída de um experimento 
aleatório foi igual a cada ponto amostral 
\u2013\u202f Ex: se total de requisições ao servidor = 1000 
Variáveis Aleatórias Contínuas 
\u2022\u202f Pode assumir um número incontável de valores 
\u2022\u202f Função Densidade de Probabilidade (PDF) f(): 
\u2022\u202f Propriedades: 
\u2013\u202f f(x) \u2265 0, \u2200x 
\u2013\u202f 
\u2022\u202f CDF e PDF: 
Métricas Simples para 
Caracterização de uma 
Variável Aleatória 
Expectativa 
\u2022\u202f Valor Esperado de uma VA X 
\u2013\u202f Ex: demanda média nos discos se: 
\u2022\u202f 90% das requisições visitam disco 1 e 10% visitam o disco 2, 
\u2022\u202f tempo de serviço de disco 1 é 15 ms, 
\u2022\u202f tempo de serviço do disco 2 é de 10 ms e 
\u2022\u202f número de visitas por requisição é o mesmo para os dois 
discos e igual a 20 (arquivos com mesmo tamanho) 
 D = D1 × 0.9 + D2 × 0.1 = 20 × 0.015 × 0.9 + 20 × 0.010 × 0.1 
X discreta X contínua 
Expectativa 
\u2022\u202f Expectativa de uma função da VA X 
\u2013\u202f Ex: utilização média dos discos para \u3bb = 100 
 U = \u3bbD 
 U = U1 × 0.9 + U2 × 0.1 
 = \u3bb × D1 × 0.9 + \u3bb D2 × 0.1 = 
 = 100 × 20 × 0.015 × 0.9 + 100 × 20 × 0.010 × 0.1 
X discreta X contínua 
Variância 
\u2022\u202f Variância de uma VA X: variabilidade, espalhamento 
dos valores de X 
E(X) = E(Y) = 100 
Var(X) = 162.5 Var(Y) = 4645.8 
Variância 
\u2022\u202f Variância de uma VA X: variabilidade, espalhamento 
dos valores de X 
Desvio Padrão e 
Coeficiente de Variabilidade 
\u2022\u202f Desvio Padrão SD(X) 
\u2022\u202f Coeficiente de Variabilidade (CV) 
 
\u2013\u202f Diferentemente de SD, que depende da unidade das medições, 
o CV é uma medida sem unidade 
\u2013\u202f Mede a quantidade de variabilidade relativo ao valor médio 
\u2013\u202f Permite comparar a variabilidade existente em distribuições/
amostras diferentes 
Distribuição de Probabilidade 
\u2022\u202f Para uma caracterização completa de uma VA é preciso 
determinar a sua distribuição de probabilidade 
\u2013\u202f CDF ou PMF (se discreta) ou PDF (se contínua) 
\u2022\u202f Existem várias distribuições discretas e contínuas na 
literatura que seguem comportamento bem definido 
\u2013\u202f Conhecê-las é importante, pois podemos aplicar resultados 
previamente desenvolvidos 
\u2022\u202f Ex: uma distribuição exponencial tem uma cauda mais leve 
do que uma distribuição Pareto 
 Caudas pesadas têm impacto no consumo de recursos 
(ex: tempo de serviço) 
\u2022\u202f Vamos fazer uma revisão rápida. Maior detalhamento nos 
caps 4 e 5 de A First Course in Probability, Sheldon Ross 
Distribuições Discretas 
\u2022\u202f Bernoulli 
\u2022\u202f Binomial 
\u2022\u202f Poisson 
\u2022\u202f Geométrica 
\u2022\u202f Zipf 
\u2022\u202f Várias outras no livro do Ross 
Distribuições Discretas 
\u2022\u202f Bernoulli (p) 
\u2013\u202f X = {0,1} X = {sucesso, falha} 
\u2013\u202f p(0) = P(X=0) = 1-p 
\u2013\u202f p(1) = P(X=1) = p 
\u2022\u202f Binomial (n, p) 
\u2013\u202f X = # sucessos em n experimentos independentes, 
onde a probabilidade de sucesso em um experimento é p 
 E(X) = np Var(X) = np(1-p) 
Distribuições Discretas 
\u2022\u202f Poisson (\u3bb) 
\u2013\u202f Número de eventos independentes que ocorrem em um intervalo 
de tempo (veja discussão em Ross, 4.8) 
\u2013\u202f Número de chegadas em um servidor em 1 hora 
\u2013\u202f Número de erros de impressão em uma página de um livro 
 E(X) = Var(X) = \u3bb 
 \u3bb = # médio de eventos que ocorrem no período 
Distribuições Discretas 
\u2022\u202f Poisson (\u3bb) 
\u2013\u202f Muito comumente usado para modelar chegada de sessões 
de usuários 
\u2022\u202f servidores Web, multimídia, banco de dados, ftp, e-mail 
\u2013\u202f Sessões são iniciadas por usuários 
\u2022\u202f Chegada de duas sessões tendem a ser independentes: 
Poisson é uma boa aproximação 
\u2013\u202f Contra-exemplo: 
\u2022\u202f Chegada de requisições em um servidor Web 
\u2022\u202f Premissa de independência não é válida: existe 
dependência entre requisições para o arquivo HTML 
e as imagens embutidas nele 
Distribuições Discretas 
\u2022\u202f Geométrica (p) 
\u2013\u202f Número de experimentos (sucesso/falha) até que um 
sucesso ocorra 
\u2013\u202f Número de retransmissões de mensagem 
E(X) = 1/p 
Var(X) = (1-p)/p2 
Distribuições Discretas 
\u2022\u202f Zipf(\u3b1) 
\u2013\u202f Comumente usada quando a distribuição é altamente 
concentrada em poucos valores 
\u2022\u202f Popularidade de arquivos em servidores Web/multimídia 
\u2013\u202f 90% dos acessos são para 10% dos arquivos 
\u2022\u202f Popularidade de palavras na língua inglesa 
\u2013\u202f Seja i, o elemento que ocupa a i-esima posição no ranking 
de concentração 
 C é a constante de normalização 
 Zipf: lei das Potências 
Distribuição Zipf 
\u2022\u202f Modela popularidade dos remetentes de e-mails 
para a UFMG 
Distribuições Contínuas 
\u2022\u202f Uniforme 
\u2022\u202f Normal 
\u2022\u202f Exponencial 
\u2022\u202f Pareto 
\u2022\u202f LogNormal 
\u2022\u202f Gamma : ver Ross 
\u2022\u202f Weibull : ver Ross 
Distribuições Contínuas 
\u2022\u202f Uniforme (a,b) 
\u2013\u202f X é uniformemente distribuída no intervalo [a,b], se 
\u2022\u202f Normal (µ, \u3c3) ou Gaussiana 
µ= valor esperado 
\u3c32 = variância 
Distribuições Contínuas 
\u2022\u202f Exponencial (\u3bb) 
\u2013\u202f Quantidade de tempo até que determinado evento ocorra 
\u2013\u202f Tempo entre chegadas de sessões em um servidor 
\u3bb = taxa de chegadas 1/ \u3bb = tempo médio entre chegadas 
 P(X \u2264 1/\u3bb ) = 1 \u2013 e-\u3bb×1/\u3bb = 1 \u2013 1/e ~ 63% 
 E(X) = 1/ \u3bb 
 Var(X) = 1/\u3bb2 \u21d2 SD(X) = 1/\u3bb \u21d2 CV(X) = 1 
 CV = 1 \u21d2 exponencial (aproximação???) 
Distribuições Exponencial e Poisson 
Processo de 
Chegadas 
Poisson 
Tempo entre 
Chegadas 
Exponencial 
Independência 
entre eventos 
Distribuições Exponencial e Poisson 
\u2022\u202f Seja uma distribuição Poisson que denote o número de eventos 
N(t) em um intervalo de tempo t 
\u2022\u202f Seja T1 o momento do