Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO INSTITUTO MULTIDISCIPLINAR DE NOVA IGUAÇU CURSO DE CIÊNCIA DA COMPUTAÇÃO TÓPICOS ESPECIAIS EM INTELIGÊNCIA ARTIFICIAL Hosana Gomes Pinto Variáveis Aleatórias: Tipos e relação com Mineração de Dados Nova Iguaçu - RJ Março / 2016 Variáveis aleatórias .Variáveis aleatórias discretas Seja X uma variável aleatória. Se o número de possíveis valores de X (ou seja, Rx, o contradomínio) for finito ou infinito numerável, chamremos X de variável aleatória discreta. Isso significa que, os possíveis valores de X, podem ser organizados em lista como x1, x2, .... , xn. No caso finito, a lista termina, e no caso infinito numerável, a lista continua indefinidamente. . Tipos de variáveis aleatórias discretas - Distribuição Bernoulli Dizemos que X tem uma distribuição Bernoulli com parâmetro p, no qual : 0 ≤ p ≤ 1, se X(w) {x0, x1} e p(x1) = p = 1 − p(x0) ∈ Essa função pode ser usada para modelar a probabilidade de sucesso em uma realização única de dado experimento. Neste caso, tem-se x0 = 0 (fracasso) e x1 = 1 (sucesso) e p é nomeado como probabilidade de sucesso do experimento. De maneira geral, qualquer variável aleatória que assume somente dois valores(dicotônica), pode ser modelada por uma distribuição Bernoulli. Nomeia-se de ensaio de Bernoulli, qualquer experimento que tem uma resposta dicotômica. Um exemplo clássico de um ensaio Bernoulli é o lançamento de uma moeda não viciada. Não é difícil enxergar que se X tem uma distribuição Bernoulli assumindo valores 0 e 1 com probabilidades 1 − p e p, respectivamente, então: EX = p, e VarX = p(1 − p) - Distribuição Binomial Dizemos que X tem uma distribuição Binomial com parâmetros n e p, no qual n é um número inteiro e 0≤ p ≤ 1, se X(w) {0, 1, . . . , n} e p(k) = n k p k (1 − p) n−k , para k {0, 1, . . . , n}. ∈ ∈ Essa distribuição pode ser encontrada ao se considerar n repetições independentes de ensaios Bernoulli. É interessante apenas o total de vezes que é obtitido o sucesso (x1 = 1) para a variável. A função de probabilidade binomial pode ser usada na modelagem da quantidade de erros num texto de n símbolos quando os erros entre símbolos são assumidos independentes e a probabilidade de erro em um símbolo do texto é igual a p. Também pode ser utilizada para a modelagem do número de caras em n lançamentos de uma moeda que possui probabilidade p de sair cara em cada lançamento. Se p = 1/2, temos um modelo para o número de caras em n lançamentos de uma moeda justa. Deste modo, vemos que: EX = np, e VarX = np(1 − p). -Distribuição de Poisson Dizemos que a variável aleatória X tem distribuição de Poisson se, esta tomando os seguintes valores: 0,1…,n,… e com parâmetro α > 0. Se X tiver a distribuição de Poisson com parâmetro α, então E(X) = α e V(X) = α. Seja X uma variável ahiatória distribuída binomialmente com parâmetro p (baseado em n repetições de um experimento). Isto é, Admita-se que quando n →infinito, fique np = α (const.), ou equivalentemente, quando n → infinito, p → 0, de modo que np → α . Nessas condições teremos: É a distribuição de Poisson com parâmetro α. - Distribuição Geométrica Uma variável aleatória com a distribuição de probabilidade recebe o nome de distribuição geométrica quando: suponha-se que realizemos um experimento S e que estejamos interessados apenas na ocorrência ou. não-ocorrência de algum evento A. Admita-se que tal como na explicação da distribuição binomial, que realizemos S repetidamente, que as repetições sejam independentes, e que em cada repetição P(A) = p e P(!A) = 1 - p = q permaneçam os mesmos. Suponha-se que repetimos o experimento até que A ocorra pela primeira vez. Defina-se a variável aleatória X como o número de repetições necessárias para obter a primeira ocorrência de A, nele se incluindo essa última. Assim, X toma os valores possiveis 1, 2, ... Como X = k se, e somente se, as primeiras (k- 1) repetições de € derem o resultado A, enquanto a k-ésima repetição dê o resultado A, teremos: - Distribuição Hipergeométrica A distribuição hipergeométrica descreve o número de sucessos em uma sequência de n amostras de uma população finita sem reposição. Por exemplo, considere que tem-se uma carga com N objetos dos quais D têm defeito. A distribuição hipergeométrica descreve a probabilidade de que em uma amostra de n objetos distintos escolhidos da carga aleatoriamente exatamente k objetos sejam defeituosos. Em geral, se uma variável aleatória X segue uma distribuição hipergeométrica com parâmetros N, D, e n, então a probabilidade de termos exatamente k sucessos é dada por Quando a população é grande quando comparada ao tamanho da amostra (ou seja, N for muito maior que n) a distribuição hipergeométrica é aproximada razoavelmente bem por uma distribuição binomial com parâmetros n (tamanho da amostra) e p = D/N (probabilidade de sucesso em um único ensaio). Se X for uma variável aleatória com distribuição de probabilidade Hipergeométrica com parâmetro N, D, n, pode-se provar que: Ex = nD/N e VarX = (nD/N) * ( ( (N – D)(N – n) ) / N(N – 1) ) .Variáveis Aleatórias Contínuas Diz-se que X é uma variável aleatória contínua, se existir uma função t, denominada função densidade de probabilidade (fdp) de X que satisfaça às seguintes condições: 1) f(x) >= x , para todo x 2) Para quaisquer a, b, com -infinito< a < b < +infinito, teremos 3) .Tipos de variáveis aleatórias - Distribuição Exponencial Dizemos que X tem uma distribuição Exponencial com parâmetro λ, onde λ > 0 é um número real, se a função densidade de X é igual a A densidade exponencial pode ser utilizada para modelar os seguintes fenômenos: tempo de vida de componentes que falham sem efeito de idade; tempo de espera entre sucessivas chegadas de fótons, emissões de elétrons de um cátodo, ou chegadas de consumidores; e duração de chamadas telefônicas. Assim: EX = 1/λ e VarX = 1/λ² . - Distribuição Normal Tem uma distribuição normal (ou Gaussiana) a variável aleatória X, que tome todos os valores reais -infinito < x < infinito, se sua fdp for da forma: Os parâmetros sigma e mi devem satisfazer às condições - infinito < mi < infinito. - Distribuição Uniforme Dizemos que X tem uma distribuição uniforme com parâmetros a e b, onde a e b são números reais e a < b, se a função densidade de X é igual a Este modelo deve ser usado quando se acredita que a probabilidade de um subintervalo de [a, b] é proporcional ao seu comprimento. Esta distribuição também é frequentemente utilizada para, modelar a fase de osciladores e fase de sinais recebidos em comunicações incoerentes. Ela também serve para modelar a escolha de um número aleatório entre a e b. Neste caso, a função de distribuição acumulada é dada por: e, de mesma forma, sabemos que: EX = (a + b)/2 e VarX = (b – a)²/12 - Distribuição Gama A variável aleatória contínua X tem distribuição gama quando sua função densidade de probabilidade é dada por: NOTAÇÃO: X~Gama(α,β) Onde α é o parâmetro de forma (α > 0) e β é o parâmetro de escala (β > 0). Observação: Quando α = 1, tem-se a distribuição exponencial. Quando α= n/2, n inteiro e β=1/2, tem-se distribução quiquadrado com n graus de liberdade. A função gama é definida por: Gráfico: Aplicações das variáveis aleatórias na área de Mineração de Dados A onipresença da ideia de incerteza é ilustrada pela rica variedade de palavras usadas para descrevê-la e conceitos relacionados. Probabilidade, acaso, aleatóriedade, sorte, risco e destino são apenas alguns exemplos. A onipresença da incerteza nos obriga a ser capaz de lidar com isso: a modelagem de incerteza é um componente necessário de quase todas asanálises de dados. Na verdade, em alguns casos, nosso principal objetivo é modelar os aspectos incertos ou aleatórios de dados. Isto é uma das grandes conquistas da ciência que temos desenvolvido um profundo e compreensão poderosa de incerteza. Os deuses caprichosos que foram anteriormente invocados para explicar a falta de previsibilidade no mundo têm sido substituídos por modelos matemáticos, estatísticos e computador baseado em que permitem-nos a compreender e manipular eventos incertos. Podemos até tentar o aparentemente impossível e prever eventos incertos, em que a previsão para um minerador de dados tanto pode significar a predição de eventos futuros (onde a noção de incerteza é muito familiar) ou previsão num sentido não temporal de uma variável capaz cujo valor real é de alguma forma escondido de nós (por exemplo, diagnosticar se uma pessoa tem câncer, baseado somente em sintomas descritivos). Nós podemos estar errados, por várias razões. Os nossos dados pode ser apenas uma amostra da população que deseja estudar, de modo que não temos certeza sobre o extensão para que amostras diferentes se diferam umas das outras e a partir da população global. Talvez o nosso interesse esteja em fazer uma previsão sobre amanhã, com base nos dados que temos hoje, de modo que nossas conclusões são sujeitas a incerteza sobre o que o futuro trará. Talvez sejamos ignorantes e não possamos observar nenhum valor, e tenhamos de basear as nossas ideias sobre o nosso "melhor achismo" sobre isso. E assim por diante. Muitas bases conceituais foram formuladas para lidar com a incerteza e ignorância. Destes, de longe, o mais utilizado é a probabilidade. A lógica Fuzzy é outra que moderadamente tem um grande número de seguidores. As variáveis aleatórias suprem justamente essa necessidade de aleatoriedade da Mineração de Dados. Bibliografia: Paul L. Meyer, Probabilidade Aplicada a Estatistica, Livris Técnicos e Científicos Editora, 1965 David Hand,Heikki Mannila,Padhraic Smyth, Principles of Data Mining ,The MIT Press, 2001 http://www.de.ufpe.br/~leandro/SlidePEP915Aula2.pdf http://slideplayer.com.br/slide/47169/ http://www.portalaction.com.br/manual-action/ http://www.mspc.eng.br/matm/prob_est230.shtml http://www.de.ufpb.br/~tarciana/Probabilidade2/Aula7.pdf
Compartilhar