Variáveis Aleatórias

•

UFRRJ

1

0

1

0

Hosana Gomes

07/07/2016

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

56.933 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO
INSTITUTO MULTIDISCIPLINAR DE NOVA IGUAÇU
CURSO DE CIÊNCIA DA COMPUTAÇÃO
TÓPICOS ESPECIAIS EM INTELIGÊNCIA ARTIFICIAL
Hosana Gomes Pinto
Variáveis Aleatórias:
Tipos e relação com
Mineração de Dados
Nova Iguaçu - RJ
Março / 2016
Variáveis aleatórias
.Variáveis aleatórias discretas
Seja X uma variável aleatória. Se o número de possíveis valores de X (ou seja, Rx, o contradomínio)
for finito ou infinito numerável, chamremos X de variável aleatória discreta. Isso significa que, os
possíveis valores de X, podem ser organizados em lista como x1, x2, .... , xn. No caso finito, a lista
termina, e no caso infinito numerável, a lista continua indefinidamente.
. Tipos de variáveis aleatórias discretas
- Distribuição Bernoulli
Dizemos que X tem uma distribuição Bernoulli com parâmetro p, no qual :
0 ≤ p ≤ 1, se X(w) {x0, x1} e p(x1) = p = 1 − p(x0) ∈
Essa função pode ser usada para modelar a probabilidade de sucesso em uma realização única de dado
experimento. Neste caso, tem-se x0 = 0 (fracasso) e x1 = 1 (sucesso) e p é nomeado como
probabilidade de sucesso do experimento. De maneira geral, qualquer variável aleatória que assume
somente dois valores(dicotônica), pode ser modelada por uma distribuição Bernoulli. Nomeia-se de
ensaio de Bernoulli, qualquer experimento que tem uma resposta dicotômica. Um exemplo clássico de
um ensaio Bernoulli é o lançamento de uma moeda não viciada. Não é difícil enxergar que se X tem
uma distribuição Bernoulli assumindo valores 0 e 1 com probabilidades 1 − p e p, respectivamente,
então: EX = p, e VarX = p(1 − p)
- Distribuição Binomial
Dizemos que X tem uma distribuição Binomial com parâmetros n e p, no qual n é um número inteiro e
0≤ p ≤ 1, se X(w) {0, 1, . . . , n} e p(k) = n k p k (1 − p) n−k , para k {0, 1, . . . , n}. ∈ ∈
Essa distribuição pode ser encontrada ao se considerar n repetições independentes de ensaios Bernoulli.
É interessante apenas o total de vezes que é obtitido o sucesso (x1 = 1) para a variável. A função de
probabilidade binomial pode ser usada na modelagem da quantidade de erros num texto de n símbolos
quando os erros entre símbolos são assumidos independentes e a probabilidade de erro em um símbolo
do texto é igual a p. Também pode ser utilizada para a modelagem do número de caras em n
lançamentos de uma moeda que possui probabilidade p de sair cara em cada lançamento. Se p = 1/2,
temos um modelo para o número de caras em n lançamentos de uma moeda justa.
Deste modo, vemos que: EX = np, e VarX = np(1 − p).
-Distribuição de Poisson
Dizemos que a variável aleatória X tem distribuição de Poisson se, esta tomando os seguintes valores:
0,1…,n,… e
com parâmetro α > 0.
Se X tiver a distribuição de Poisson com parâmetro α, então E(X) = α e V(X) = α.
Seja X uma variável ahiatória distribuída binomialmente com parâmetro p (baseado em n repetições de
um experimento). Isto é,
Admita-se que quando n →infinito, fique np = α (const.), ou equivalentemente, quando n → infinito,
p → 0, de modo que np → α . Nessas condições teremos:
É a distribuição de Poisson com parâmetro α.
- Distribuição Geométrica
Uma variável aleatória com a distribuição de probabilidade recebe o nome de distribuição geométrica
quando: suponha-se que realizemos um experimento S e que estejamos interessados apenas na
ocorrência ou. não-ocorrência de algum evento A. Admita-se que tal como na explicação da
distribuição binomial, que realizemos S repetidamente, que as repetições sejam independentes, e que
em cada repetição P(A) = p e P(!A) = 1 - p = q permaneçam os mesmos. Suponha-se que repetimos o
experimento até que A ocorra pela primeira vez.
Defina-se a variável aleatória X como o número de repetições necessárias para obter a primeira
ocorrência de A, nele se incluindo essa última. Assim, X toma os valores possiveis 1, 2, ... Como
X = k se, e somente se, as primeiras (k- 1) repetições de € derem o resultado A, enquanto a k-ésima
repetição dê o resultado A, teremos:
- Distribuição Hipergeométrica
A distribuição hipergeométrica descreve o número de sucessos em uma sequência de n amostras de
uma população finita sem reposição. Por exemplo, considere que tem-se uma carga com N objetos dos
quais D têm defeito. A distribuição hipergeométrica descreve a probabilidade de que em uma amostra
de n objetos distintos escolhidos da carga aleatoriamente exatamente k objetos sejam defeituosos. Em
geral, se uma variável aleatória X segue uma distribuição hipergeométrica com parâmetros N, D, e n,
então a probabilidade de termos exatamente k sucessos é dada por

Quando a população é grande quando comparada ao tamanho da amostra (ou seja, N for muito maior
que n) a distribuição hipergeométrica é aproximada razoavelmente bem por uma distribuição binomial
com parâmetros n (tamanho da amostra) e p = D/N (probabilidade de sucesso em um único ensaio). Se
X for uma variável aleatória com distribuição de probabilidade Hipergeométrica com parâmetro N, D,
n, pode-se provar que:
Ex = nD/N e VarX = (nD/N) * ( ( (N – D)(N – n) ) / N(N – 1) )
.Variáveis Aleatórias Contínuas
Diz-se que X é uma variável aleatória contínua, se existir uma função t, denominada função densidade
de probabilidade (fdp) de X que satisfaça às seguintes condições:
1) f(x) >= x , para todo x
2) Para quaisquer a, b, com -infinito< a < b < +infinito, teremos
3)
.Tipos de variáveis aleatórias
- Distribuição Exponencial
Dizemos que X tem uma distribuição Exponencial com parâmetro λ, onde λ > 0 é um número real, se a
função densidade de X é igual a
A densidade exponencial pode ser utilizada para modelar os seguintes fenômenos: tempo de vida de
componentes que falham sem efeito de idade; tempo de espera entre sucessivas chegadas de fótons,
emissões de elétrons de um cátodo, ou chegadas de consumidores; e duração de chamadas telefônicas.
Assim:
EX = 1/λ e VarX = 1/λ² .
- Distribuição Normal
Tem uma distribuição normal (ou Gaussiana) a variável aleatória X, que tome todos os valores
reais -infinito < x < infinito, se sua fdp for da forma:
Os parâmetros sigma e mi devem satisfazer às condições - infinito < mi < infinito.
- Distribuição Uniforme
Dizemos que X tem uma distribuição uniforme com parâmetros a e b, onde a e b são números reais e
a < b, se a função densidade de X é igual a
Este modelo deve ser usado quando se acredita que a probabilidade de um subintervalo de [a, b] é
proporcional ao seu comprimento. Esta distribuição também é frequentemente utilizada para, modelar a
fase de osciladores e fase de sinais recebidos em comunicações incoerentes. Ela também serve para
modelar a escolha de um número aleatório entre a e b.
Neste caso, a função de distribuição acumulada é dada por:
e, de mesma forma, sabemos que:
EX = (a + b)/2 e VarX = (b – a)²/12
- Distribuição Gama
A variável aleatória contínua X tem distribuição gama quando sua função densidade de probabilidade é
dada por:
NOTAÇÃO: X~Gama(α,β)
Onde α é o parâmetro de forma (α > 0) e β é o parâmetro de escala (β > 0). Observação: Quando α = 1,
tem-se a distribuição exponencial. Quando α= n/2, n inteiro e β=1/2, tem-se distribução quiquadrado
com n graus de liberdade.
A função gama é definida por:
Gráfico:
Aplicações das variáveis aleatórias na área de Mineração de Dados
A onipresença da ideia de incerteza é ilustrada pela rica variedade de palavras usadas para descrevê-la e
conceitos relacionados. Probabilidade, acaso, aleatóriedade, sorte, risco e destino são apenas alguns
exemplos. A onipresença da incerteza nos obriga a ser capaz de lidar com isso: a modelagem de
incerteza é um componente necessário de quase todas asanálises de dados. Na verdade, em alguns
casos, nosso principal objetivo é modelar os aspectos incertos ou aleatórios de dados. Isto é uma das
grandes conquistas da ciência que temos desenvolvido um profundo e compreensão poderosa de
incerteza. Os deuses caprichosos que foram anteriormente invocados para explicar a falta de
previsibilidade no mundo têm sido substituídos por modelos matemáticos, estatísticos e computador
baseado em que permitem-nos a compreender e manipular eventos incertos. Podemos até tentar o
aparentemente impossível e prever eventos incertos, em que a previsão para um minerador de dados
tanto pode significar a predição de eventos futuros (onde a noção de incerteza é muito familiar) ou
previsão num sentido não temporal de uma variável capaz cujo valor real é de alguma forma escondido
de nós (por exemplo, diagnosticar se uma pessoa tem câncer, baseado somente em sintomas
descritivos). Nós podemos estar errados, por várias razões. Os nossos dados pode ser apenas uma
amostra da população que deseja estudar, de modo que não temos certeza sobre o extensão para que
amostras diferentes se diferam umas das outras e a partir da população global. Talvez o nosso interesse
esteja em fazer uma previsão sobre amanhã, com base nos dados que temos hoje, de modo que nossas
conclusões são sujeitas a incerteza sobre o que o futuro trará. Talvez sejamos ignorantes e não
possamos observar nenhum valor, e tenhamos de basear as nossas ideias sobre o nosso "melhor
achismo" sobre isso. E assim por diante. Muitas bases conceituais foram formuladas para lidar com a
incerteza e ignorância. Destes, de longe, o mais utilizado é a probabilidade. A lógica Fuzzy é outra que
moderadamente tem um grande número de seguidores.
As variáveis aleatórias suprem justamente essa necessidade de aleatoriedade da Mineração de Dados.
Bibliografia:
Paul L. Meyer, Probabilidade Aplicada a Estatistica, Livris Técnicos e Científicos Editora, 1965
David Hand,Heikki Mannila,Padhraic Smyth, Principles of Data Mining ,The MIT Press, 2001
http://www.de.ufpe.br/~leandro/SlidePEP915Aula2.pdf
http://slideplayer.com.br/slide/47169/
http://www.portalaction.com.br/manual-action/
http://www.mspc.eng.br/matm/prob_est230.shtml
http://www.de.ufpb.br/~tarciana/Probabilidade2/Aula7.pdf