Logo Passei Direto

uoc _ telecomunicaciones telematica _ asignatura_ matematicas para las telecomunicaciones apunte2020 _ matematica

User badge image
Diego Pereira

en

Material

Esta es una vista previa del archivo. Inicie sesión para ver el archivo original

matematicas para las telecomunicaciones_modulos.zip
Modulo 2.pdf
Variables 
aleatorias
PID_00253303
Ana Escudero
Alícia Miralles
Alícia Vila
Tiempo mínimo de dedicación recomendado: 4 horas
Los textos e imágenes publicados en esta obra están sujetos -salvo que se indique lo contrario-
a una licencia de Reconocimiento-NoComercial-SinObraDerivada (BY-NC-ND) v.3.0 España de
Creative Commons. Podéis copiarlos, distribuirlos y transmitirlos públicamente siempre que citéis
al autor y la fuente (FUOC. Fundación para la Universitat Oberta de Catalunya), no hagáis un
uso comercial de ellos y no hagáis obra derivada. La licencia completa se puede consultar en
http: // creativecommons. org/ licenses/ by-nc-nd/ 3. 0/ es/ legalcode. es .
http://creativecommons.org/licenses/by-nc-nd/3.0/es/legalcode.es
CC-BY-NC-ND • PID 00253303 Variables aleatorias
Índice
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1. Concepto de variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1. Variables aleatorias discretas más importantes . . . . . . . . . . . . . . . . 9
2.1.1. Variable aleatoria de Bernoulli: B(p) . . . . . . . . . . . . . . . . . . 9
2.1.2. Variable aleatoria binomial: Bin(n, p) . . . . . . . . . . . . . . . . . . 11
2.1.3. Variable aleatoria geométrica: Geom(p) . . . . . . . . . . . . . . . . 12
2.1.4. Variable aleatoria de Poisson: Poiss(α) . . . . . . . . . . . . . . . . 13
2.2. Parámetros: valor medio y varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3. Función de distribución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1. Función de distribución y función de densidad . . . . . . . . . . . . . . . . 24
3.2. Variables aleatorias continuas más importantes . . . . . . . . . . . . . . . 27
3.2.1. Variable aleatoria uniforme: U(a, b) . . . . . . . . . . . . . . . . . . . . 28
3.2.2. Variable aleatoria exponencial: Exp(λ) . . . . . . . . . . . . . . . . 29
3.2.3. Variable aleatoria normal o de Gauss: N(m,σ) . . . . . . . . . 31
3.3. Parámetros: valor medio (esperanza) y varianza . . . . . . . . . . . . . . . 33
3.4. Variables aleatorias mixtas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.5. Funciones de densidad condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.6. Delta de Dirac. Densidad en el caso discreto . . . . . . . . . . . . . . . . . . 37
4. Teorema central del ĺımite. Aplicación . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1. Aproximación de ley binomial a la normal . . . . . . . . . . . . . . . . . . . . 41
Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Actividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Solucionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
CC-BY-NC-ND • PID 00253303 5 Variables aleatorias
Introducción
Con mucha frecuencia, es necesario relacionar el resultado de una experiencia
con un número. Imaginad, por ejemplo, que queremos evaluar la señal de salida
de un circuito electrónico o saber cuál es el tiempo de servicio en el que se pro-
cesan peticiones de usuario que llegan a un servidor. Una primera aproximación
a estos problemas seŕıa considerar que los valores que estamos buscando son
deterministas y que, por lo tanto, se pueden definir perfectamente con unos
parámetros que nos permiten obtener valores exactos a lo largo del tiempo.
En la práctica, no obstante, sabemos que hay muchos factores que hacen que
la respuesta de los sistemas de telecomunicación tenga una cierta variabilidad.
Aśı, por ejemplo, en el caso del circuito electrónico que acabamos de mencio-
nar, debeŕıamos tener en cuenta la presencia de ruido y otras interferencias que
hacen que la señal de salida no sea exactamente la esperada. También debemos
tener en cuenta que los dispositivos electrónicos no son ideales y que pueden
introducir errores. Las variables aleatorias nos permiten tener en cuenta esta
variabilidad y modelizar los diferentes resultados que obtenemos en cada expe-
riencia, de forma que podemos prever cuál será el comportamiento de nuestro
sistema con una cierta probabilidad.
En el apartado 1 de este módulo, introducimos formalmente el concepto de
variable aleatoria. Veremos que hay dos tipos básicos de variable aleatoria: la
variable aleatoria discreta (apartado 2), que nos da un conjunto numerable de
resultados posibles, y la variable aleatoria continua (apartado 3), que nos da
como resultado cualquier número de un intervalo definido dentro de los núme-
ros reales. Veremos cómo las podemos estudiar y mostraremos los casos de
variables aleatorias que aparecen más habitualmente. Trabajaremos, en parti-
cular, con las distribuciones más importantes que están relacionadas con las
telecomunicaciones. Definiremos los conceptos de valor medio, E(X) y varian-
za, Var(X), de una variable aleatoria X. En el apartado 4 veremos el teorema
central del ĺımite, de gran importancia en el campo de la estad́ıstica y que nos
permite relacionar variables aleatorias continuas y discretas.
CC-BY-NC-ND • PID 00253303 6 Variables aleatorias
Objetivos
Los objetivos de este módulo son los siguientes:
1. Entender qué es una variable aleatoria, diferenciar dos tipos de las mismas
y poner ejemplos: las discretas y las continuas.
2. Conocer cuatro tipos de variables aleatorias discretas y saber poner ejem-
plos: la distribución de Bernoulli, la distribución binomial, la distribución
geométrica y la distribución de Poisson.
3. Entender los conceptos de función de distribución y función de densidad, y
caracterizar las distribuciones aleatorias con estas funciones.
4. Conocer tres tipos de variables aleatorias continuas y saber poner ejemplos:
la distribución uniforme, la distribución exponencial y la distribución normal
o de Gauss.
5. Entender los conceptos de valor medio y varianza y caracterizar las distri-
buciones aleatorias con estos dos parámetros.
6. Eelegir el tipo de distribución aleatoria más adecuada para modelizar un
fenómeno determinado.
7. Comprender el sentido del teorema central del ĺımite y sus aplicaciones.
CC-BY-NC-ND • PID 00253303 7 Variables aleatorias
1. Concepto de variable aleatoria
.
Véase también
El espacio muestral se define
en el módulo ((Introducción a
la probabilidad)).
A partir de una experiencia aleatoria, se puede definir el espacio muestral, Ω
(omega), como el conjunto de todos los resultados posibles asociados a esta
experiencia. Una variable aleatoria, X, asigna un número a cada uno de estos
resultados. Veamos algunos ejemplos de ello.
Observación
La variable X del ejemplo 1.1
toma los valores {0, 1}. Es
una variable aleatoria
discreta.
La variable X del ejemplo 1.2
toma los valores a [0, 2]. Es
una variable aleatoria
continua.
Ejemplo 1.1
Consideremos la experiencia de tirar una moneda. El espacio muestral es Ω = {cara, cruz}.
Observad que el espacio muestral Ω incluye todos los resultados posibles de este experi-
mento. Podemos asignar a cada uno de estos resultados los valores
0 o 1, dependiendo de
que el resultado de la experiencia sea cara o cruz. Escribimos, pues, que X(cara) = 0 y
X(cruz) = 1. La variable X puede tomar los valores {0, 1}.
Ejemplo 1.2
Supongamos que un aparato eléctrico emite una señal aleatoria cada segundo. Esta señal
aleatoria se expresa en milivoltios (mV) y toma valores dentro del intervalo [0, 2]. En este
caso, el espacio muestral está formado por valores numéricos. Podemos definir la variable
aleatoria como la aplicación identidad. A cada resultado de la experiencia, le asigna el
mismo valor. La variable X puede tomar un valor cualquiera del intervalo [0, 2].
.
Definición 1.1. Una variable aleatoria, X, es una función que asigna
un número real a cada elemento del espacio muestral.
Conjunto discreto
Un conjunto discreto es aquel
que está formado por un
número finito de elementos o
bien por un número infinito
de elementos que son
numerables (es decir, que se
pueden enumeran de manera
que hay un primer elemento,
un segundo elemento, etc.).
Por ejemplo, los conjuntos de
números naturales y enteros
(N y Z) son discretos. El
conjunto de los números
reales, R, no es un conjunto
discreto.
En los ejemplos 1.1 y 1.2 vemos la diferencia entre una variable aleatoria dis-
creta y una continua. En el primer caso, tenemos un número determinado de
resultados posibles, podemos obtener o bien cara o bien cruz. En el segun-
do caso, nuestro aparato eléctrico puede emitir un valor cualquiera dentro del
intervalo [0, 2].
.
Definición 1.2. Una variable aleatoria discreta toma valores de un
conjunto finito {a1, a1, . . . , an} o bien numerable infinito {a1, a2, . . .}.
.
Definición 1.3. Una variable aleatoria continua puede tomar valores
en conjuntos no numerables, como por ejemplo en un intervalo de R o
en todo R.
Esto hace que el tratamiento matemático de las variables aleatorias discretas
y continuas sea muy diferente.
CC-BY-NC-ND • PID 00253303 8 Variables aleatorias
2. Variable aleatoria discreta
.
En este apartado, definiremos las variables aleatorias discretas, veremos las
distribuciones más importantes y calcularemos para cada una dos parámetros:
el valor medio y la varianza.
En el apartado 1 hemos visto que una variable aleatoria, X, nos da un valor
numérico para el resultado de una experiencia. Para cada elemento del espacio
muestral Ω, tenemos definido un valor numérico real que es el que toma la
variable X cuando el resultado del experimento es este elemento. Al conjunto
de valores que puede tomar X lo denominamos ΩX , que es, por lo tanto, un
subconjunto de R. La variable aleatoria X es discreta cuando el conjunto ΩX
es discreto, es decir, finito o infinito numerable.
De manera natural, la probabilidad que tenemos definida en el espacio Ω se
traslada a los valores que toma X.
En el ejemplo 1.1, en que el experimento es tirar una moneda al aire, escribimos
P (X=0) = P (cara) = 12 y P (X=1) = P (cruz) =
1
2 .
Observación
Escribimos X = 0 cuando
queremos indicar que X
toma el valor 0 y X = 1
cuando X toma el valor 1.
En el ejemplo 1.1, asociamos
el valor 0 a sacar cara y el
valor 1 a sacar cruz:
P (X=0) =
1
2
P (X=1) =
1
2
Dado que el resultado de la variable aleatoria X vaŕıa con cada repetición
del experimento, no podemos definir el valor de X, pero śı podemos describir
la probabilidad para cada uno de los resultados posibles de X, es decir, la
probabilidad de que X tome un valor determinado. Esto se describe como
P (X = ai), donde ai es un valor posible de X.
.
Definición 2.1. Se denomina función de probabilidad al conjunto
de valores P (X=ai). Esta función asigna una probabilidad a cada valor
posible de X. También se escribe como PX(ai).
Por ejemplo, en el caso de la experiencia de lanzar una moneda al aire, hemos
definido Ω = {cara, cruz} y hemos asignado los valores de 0 y 1 a este espacio
muestral. En este caso, ΩX = {0, 1} y la función de probabilidad nos dice que
la probabilidad de que salga cara, P (X = 0), es igual a 12 y la probabilidad de
que salga cruz, P (X = 1), es igual a 12 .
CC-BY-NC-ND • PID 00253303 9 Variables aleatorias
.
Propiedades de la función de probabilidad de una variable aleato-
ria discreta:
1) La probabilidad P (X=ai) es un valor que está siempre entre 0 y 1,
es decir, 0 ≤ P (X=ai) ≤ 1.
2) La suma de todas las probabilidades tiene que ser 1, puesto que los
sucesos X=ai,∀i forman una partición del espacio muestral. Es decir,
∑
i
P (X=ai) = 1. (1)
.
Definición 2.2. X es una variable aleatoria discreta uniforme si
toma los valores {a1, a2, . . . , an} con probabilidades
P (X=ai) =
1
n
, i = 1, 2, . . . , n.
Es decir, todos los elementos ai tienen la misma probabilidad asignada.
El valor 1/n se deduce teniendo en cuenta que, según (1), si la probabilidad
de cada resultado es un valor común p, la suma de estas probabilidades es∑n
i=1 p = np = 1.
La uniformidad suele ir vinculada a la simetŕıa de ciertos experimentos. Por
ejemplo, el uso de monedas y dados simétricos. La variable que vale 0 o 1
según salga cruz o cara al lanzar una moneda al aire, o la variable que da
el resultado obtenido al lanzar un dado, son ejemplos de variables aleatorias
discretas uniformes. En el caso de la moneda, la probabilidad de obtener 0
o 1 es 12 . En el caso del dado, la probabilidad de obtener cualquiera de los
resultados es 16 .
2.1. Variables aleatorias discretas más importantes
2.1.1. Variable aleatoria de Bernoulli: B(p)
Este es el tipo más sencillo de variable aleatoria discreta, y se utiliza para
representar experiencias en las que solo podemos tener dos resultados posibles.
Partimos de una experiencia aleatoria y distinguimos entre los resultados
Ω = {A,Ac}. El resultado A se denomina éxito y definimos X(A) = 1. El re-
en el ejemplo de la moneda sacar para o sacar Cruz tiene la misma probabilidad 1/2
CC-BY-NC-ND • PID 00253303 10 Variables aleatorias
sultado Ac se denomina no éxito y definimos X(Ac) = 0. La variable aleatoria
toma solo los dos valores {0, 1}. Solo hay que dar la probabilidad asignada a uno
de estos valores y la distribución queda definida completamente. Si P (A) = p,
entonces P (X=1) = p y P (X=0) = 1− p.
A y Ac
Los conjuntos A y Ac son
complementarios. Recordad
lo que hab́ıamos visto en el
módulo ((Introducción a la
probabilidad)) (apartado 2.2,
fórmula 12): si P (A) = p, la
probabilidad del conjunto
complementario, P (Ac), es
1− p.
.
Decimos que X es una variable aleatoria de Bernoulli con proba-
bilidad de éxito p cuando esta variable puede tomar los valores X = 1
(éxito) con probabilidad p y X = 0 (no éxito) con probabilidad (1− p).
Se escribe: X ∼ B(p), donde p indica la probabilidad de éxito y p ∈ [0, 1].
Diremos que se ha producido éxito cuando el resultado obtenido esté
dentro del conjunto A, es decir, si pasa A, y no éxito cuando el resultado
obtenido esté en el conjunto Ac (complementario de A), es decir, si no
sucede A.
La variable del ejemplo 1.1 de este módulo sigue una distribución B( 12 ). Vol-
vamos al caso de la moneda. Si definimos éxito, A, que salga cara, y el no
éxito, Ac, que salga cruz, nuestra variable aleatoria, X, sigue una distribución
de Bernoulli B( 12 ). Notad que también podŕıamos haber definido A como cruz
y Ac como cara.
Ejemplo 2.1
En comunicaciones binarias, X puede indicar el error en la transmisión de un bit. El
espacio muestral de la experiencia es determinado por Ω = {error,no error} y la variable
aleatoria toma los valores X = 1 si hay error y X = 0 si no lo hay. P (X=1) = P (error)
y P (X=0) = P (no error). Observad que en este ejemplo hemos definido éxito, A, como
la presencia de error en la transmisión.
Otro ejemplo similar de aplicación de la distribución
de Bernoulli en las tele-
comunicaciones se da en los sistemas de radar. Podemos definir éxito, A (es
decir, X = 1), cuando el radar detecta la presencia de un objeto y Ac (X = 0)
cuando el radar no detecta ningún objeto.
Observación
En el ejemplo 2.2:
P (X=0) =
5
6
P (X=1) =
1
6
Ejemplo 2.2
Al lanzar un dado, nos fijamos en la máxima puntuación posible y definimos A =
{sale un 6}, entonces Ac = {no sale un 6}. Definimos X(A) = 1 y X(Ac) = 0. La varia-
ble X sigue una distribución B( 1
6
), puesto que la probabilidad de lo que hemos definido
como éxito es 1
6
.
CC-BY-NC-ND • PID 00253303 11 Variables aleatorias
2.1.2. Variable aleatoria binomial: Bin(n,p)
.
La variable aleatoria binomial, Bin(n, p), se da cuando repetimos n
veces y de manera independiente una experiencia B(p) de Bernoulli. A
cada resultado (secuencia de n valores 0 o 1), la variable aleatoria X
le asigna el número de éxitos que han salido. Aśı, X toma los valores
{0, 1, 2, . . . , n}.
La función de probabilidad (probabilidad que tiene cada uno de los va-
lores que toma la variable X) es determinada por:
P (X=k) =
(
n
k
)
pk(1− p)n−k con k ∈ {0, 1, 2, . . . , n}. (2)
Decimos que X es una variable aleatoria binomial y escribimos X ∼
Bin(n, p), donde n es el número de veces que repetimos la experiencia
de Bernoulli B(p), de probabilidad de éxito p.
La fórmula (2) corresponde al hecho de que tenemos que poner un factor p
para cada éxito resultante (pk, por lo tanto) y un factor (1 − p) para cada no
éxito ((1 − p)n−k, por lo tanto). El factor
(
n
k
)
se debe a que fijar el número
k de éxitos todav́ıa deja libertad para situar estos éxitos en la secuencia de
resultados n. El número de maneras de elegir las k posiciones de los éxitos es
el anterior número combinatorio, puesto que la selección la hacemos sin orden
y sin repetición.
Recordad que
(n
k
)
(se lee n sobre
k) se calcula como n!
k!(n−k)! .
En el ejemplo 2.3, X sigue una distribución Bin(10, 0, 1), en la que 10 es el
número de veces que se repite el experimento y 0, 1, la probabilidad de éxito
de cada experimento.
Ejemplo 2.3
Una persona, emisor, tiene que mandar un mensaje de 10 elementos, elegidos del conjunto
{0, 1} y ordenados. Un mensaje de este tipo podŕıa ser la palabra 0011111101 (formada
con 10 bits). Suponemos que cada vez que la persona elige un bit para formar la palabra,
la probabilidad de que sea un 0 es 0,1 y, por lo tanto, la de que sea un 1 es 0,9. En este
ejemplo, consideraremos que se da la condición de éxito, A, cuando se transmite un 0 y
la condición de no éxito, Ac, cuando se transmite un 1. Con esta idea, nos vienen a la
cabeza toda una serie de preguntas, como por ejemplo:
1) ¿Cuál es la probabilidad de que el emisor env́ıe exactamente la palabra 0011111101?
2) ¿Cuál es la probabilidad de que el emisor env́ıe una palabra que tenga exactamente
tres ceros?
3) ¿Cuál es la probabilidad de que el emisor env́ıe una palabra que tenga exactamente
k ceros?
4) ¿Cuál es la probabilidad de que el emisor env́ıe una palabra que tenga como máximo
tres ceros?
CC-BY-NC-ND • PID 00253303 12 Variables aleatorias
Las cuestiones anteriores las podemos resolver aplicando lo que habéis aprendido en el
tema anterior. Se obtienen los resultados siguientes:
1) 0,13 · 0,97 = 0,00048.
La palabra para enviar tiene tres ceros y, por lo tanto, la probabilidad de que en 10
experiencias obtengamos 3 éxitos es: P (X=k) =
(n
k
)
pk(1− p)n−k En este caso, nos
piden una combinación concreta de todas las posibles que podŕıan incluir 3 ceros y,
por lo tanto, no tenemos en cuenta el término
(n
k
)
y P = 0,13 · 0,910−3.
2) El resultado anterior nos da la probabilidad para una palabra que tiene 3 ceros y 7
unos. Vimos en el apartado anterior que el número de palabras que se pueden formar
con 3 ceros y 7 unos es
(10
3
)
. Entonces, la respuesta es
(10
3
)
0,13 · 0,97 = 0,0574.
En este caso, nos piden la probabilidad de una secuencia con 3 ceros. Estos ceros
pueden estar en cualquier posición y, por lo tanto, debemos considerar todas las
combinaciones posibles de palabras de 10 bits que pueden contener estos ceros.
3) Está claro que una palabra de tamaño 10 puede tener entre 0 y 10 ceros. Aśı, 0 ≤ k ≤
10. Haciendo el mismo razonamiento que en el apartado anterior, tenemos
(10
k
)
0,1k ·
0,910−k. Observad que k es el número de ceros que puede contener la palabra, no el
número de experiencias, que para este caso es 10.
4) Ahora debemos tener en cuenta aquellos casos en los que el número de ceros sea
menor o igual que 3. De la expresión anterior, sumamos los casos en los que k toma
los valores 0, 1, 2 y 3. Obtenemos:
3∑
k=0
(10
k
)
0,1k · 0,910−k =
(10
0
)
0,10 · 0,910−0 +
(10
1
)
0,11 · 0,910−1
+
(10
2
)
0,12 · 0,910−2 +
(10
3
)
0,13 · 0,910−3
= 0,3487 + 0,3874 + 0,1937 + 0,0574 = 0,9872.
Si a la variable X le asignamos el número de ceros que tiene cada palabra, los apartados
anteriores los podemos escribir utilizando la X ∼ Bin(10, 0,1):
• P (X=3) =
(10
3
)
0,13 · 0,97.
• P (X=k) =
(10
k
)
0,1k · 0,910−k.
• P (X ≤ k) =
k∑
i=0
(10
i
)
0,1i · 0,910−i.
Ejemplo 2.4
* Recordad que hemos definido el
éxito A como el hecho de
transmitir un bit erróneo.
Enviamos una palabra de n bits en la que cada bit puede llevar error o no, indepen-
dientemente de los otros. La variable X ∼ Bin(n, p) toma el valor del número de bits
erróneos que hay en la palabra y, por lo tanto, los valores posibles son {0, 1, 2, . . . , n}. p
es la probabilidad de que un bit sea erróneo.*
2.1.3. Variable aleatoria geométrica: Geom(p)
.
La variable aleatoria geométrica, Geom(p), se da cuando repetimos,
de manera independiente, una experiencia B(p), hasta obtener el primer
éxito. X cuenta el número de veces que hay que hacer la experiencia para
obtener el primer éxito. Por lo tanto, X toma los valores {1, 2, 3, . . .}.
CC-BY-NC-ND • PID 00253303 13 Variables aleatorias
.
Su distribución de probabilidades es determinada por:
P (X=k) = (1− p)k−1p amb k ∈ {1, 2, 3, . . .}. (3)
en la que p es la probabilidad de éxito y k, el número de intentos que ne-
cesitamos hasta obtener el éxito. Decimos que X es una variable aleatoria
geométrica con probabilidad de éxito p, y escribimos X ∼ Geom(p).
La fórmula (3) se obtiene considerando que para que el primer éxito pase en
la posición k se deben obtener k− 1 no éxitos seguidos (factor (1− p)k−1) y, a
continuación, un éxito (factor p).
En el ejemplo que veremos a continuación, X sigue una distribución Geom(0,2).
Observad que la expresión de la distribución geométrica es similar a la expresión
de la distribución binomial, pero sin el término
(
n
k
)
, puesto que en este caso
estamos fijando la secuencia de resultados como Ac,Ac,. . . ,Ac,A.
Ejemplo 2.5
Para enviar mensajes por internet, los mensajes se dividen en paquetes y después se env́ıan
por la red. Si la red está congestionada, los paquetes se pueden perder. Supongamos que
en una red muy congestionada, la probabilidad de perder un paquete es 0,8. Esto significa
que el paquete no se pierde en una transmisión con una probabilidad de 0,2. El paquete
se transmite repetidamente hasta que el receptor lo recibe. Nos hacemos las preguntas
siguientes:
1) ¿Cuál es la probabilidad de que el paquete tenga que ser enviado al menos tres veces?
2) ¿Cuál es la probabilidad de que tengamos que enviar el paquete como máximo 5 veces
para que el receptor lo reciba?
Si la variable aleatoria X cuenta el número de veces que hay que enviar un paquete, toma
valores del conjunto {1, 2, 3, . . .} (X es una variable discreta infinita). Podemos escribir:
1) P (X ≥ 3) =
1−P (X ≤ 2) = 1− (P (X=1) +P (X=2)) = 1− (0,2 + 0,8 · 0,2) = 0,64.
2) P (X ≤ 5) =
5∑
k=1
0, 2 · 0, 8k−1 = 0,2(1 + 0,8 + 0,82 + 0,83 + 0,84) = 0,67232.
2.1.4. Variable aleatoria de Poisson: Poiss(α)
La variable aleatoria de Poisson se utiliza para modelizar algunos fenómenos,
como los siguientes:
• El número de accidentes en un cruce dado y para un intervalo de tiempo
fijado.
• El número de llamadas que llegan a una centralita en un cierto intervalo de
tiempo.
CC-BY-NC-ND • PID 00253303 14 Variables aleatorias
• El número de peticiones que llegan a un servidor en un cierto intervalo de
tiempo.
• El número de electrones o agujeros que atraviesan una barrera de potencial.
• El número de defectos de fabricación de un producto de unas dimensiones
determinadas.
• Teoŕıa de colas en redes de comunicaciones de voz y datos.
.
Contamos sucesos que se producen en posiciones aleatorias de un cier-
to intervalo de tamaño T (t́ıpicamente, sucesos que pasan en instantes
aleatorios a lo largo de un tiempo total T ). La variable aleatoria X da
el número total de sucesos y toma los valores {0, 1, 2, 3, . . .}
La función de probabilidad para una variable aleatoria de Poisson
es:
P (X=k) =
αk
k!
e−α amb k ∈ {0, 1, 2, 3, . . .}. (4)
Donde α = λT es el número medio de sucesos en el intervalo T . Por lo
tanto, λ es el número medio de sucesos por unidad de tiempo (tasa).
Decimos que X es una variable aleatoria de Poisson de parámetro α, y
escribimos X ∼ Poiss(α).
Ejemplo 2.6
Sabemos que a un servidor llegan de media 5 peticiones por segundo. ¿Cuál es la pro-
babilidad de que en un segundo no llegue ninguna petición? ¿Cuál es la probabilidad de
que en un segundo lleguen una o más peticiones?
Según el enunciado, λ = 5 y T = 1; aśı, α = 5. Ahora ya podemos dar las respuestas. En
el primer caso, tenemos que calcular la probabilidad de que el número de llegadas, k, sea
cero; por lo tanto:
P (X=0) =
50
0!
e−5 = e−5 = 0,0067.
En este segundo caso, tenemos que calcular la probabilidad de que lleguen una o más
peticiones al servidor:
P (X ≥ 1) = 1− P (X=0) = 1− 0,0067 = 0,9933.
2.2. Parámetros: valor medio y varianza
Hasta ahora, en este apartado hemos definido qué es una variable aleatoria
discreta y hemos visto algunas de las distribuciones más importantes: la dis-
tribución de Bernoulli, la binomial, la geométrica y la de Poisson. En este
CC-BY-NC-ND • PID 00253303 15 Variables aleatorias
subapartado, veremos dos parámetros muy utilizados que nos permitirán, de
manera muy global, evaluar y comparar las diferentes variables aleatorias. Estos
parámetros son el valor medio y la varianza.
.
Definición 2.3. Sea X una variable aleatoria discreta que toma los
valores {a1, a2, . . . , an} (para el caso de que X tome infinitos valores se
hace de manera parecida, pero en lugar de sumas finitas, tenemos series
numéricas).
El valor medio, esperanza o momento de orden 1 de X:
E(X) =
n∑
i=1
aiP (X=ai). (5)
El momento de orden 2:
E(X2) =
n∑
i=1
a2iP (X=ai). (6)
El momento de orden k, (k = 0, 1, 2, 3, . . .):
E(Xk) =
n∑
i=1
aki P (X=ai). (7)
La esperanza de X es un número que nos da la posición en torno a la cual se
concentra la variable. Un significado más preciso es el siguiente. Si repetimos el
experimento un número grande de veces N , obtenemos valores para la variable
X: X1, X2, . . . , XN . En esta lista, aparece cada valor posible ai un número Ni
de veces. Si hacemos la media aritmética de todos los resultados:
1
N
(X1 +X2 + · · ·+XN ) =
1
N
(a1N1 + a2N2 + · · ·+ anNn) =
∑
i
ai
Ni
N
.
Cuando N es muy grande, las frecuencias relativas NiN se estabilizan en los
valores P (ai), de forma que la media aritmética anterior tiende a la esperanza
de la variable X.
CC-BY-NC-ND • PID 00253303 16 Variables aleatorias
.
Definición 2.4. La varianza de una variable aleatoria discreta X es:
Var(X) = E((X − E(X))2) =
n∑
i=1
(ai − E(X))2P (X=ai). (8)
La desviación t́ıpica de X es:
σ(X) =
√
Var(X). (9)
Observación
La desviación t́ıpica se
representa con la letra σ, que
se lee ((sigma)).
Varianza y desviación t́ıpica
Notad que la varianza es una
media de las diferencias al
cuadrado, mientras que la
desviación t́ıpica es el mismo
parámetro pero dado en las
mismas unidades que la
variable aleatoria. La relación
entre ellas es:
σ(X) =
√
Var(X).
La varianza es una media de las distancias de los valores de X al valor medio. El
cuadrado se pone para que todas las desviaciones se cuenten con signo positivo.
Con la desviación t́ıpica, recuperamos las dimensiones originales deX aplicando
una ráız cuadrada a la varianza. La varianza o la desviación dan una medida
de la dispersión de X. Si las probabilidades se concentran mucho en torno a
E(X), la dispersión será pequeña.
.
Propiedades de la varianza.
Var(X) ≥ 0. (10)
Var(X) = E(X2)− E(X)2. (11)
En efecto, en (8) vemos que la suma que define Var(X) solo contiene términos
positivos (números al cuadrado y probabilidades) de donde se obtiene (10).
Desarrollando el cuadrado en (8):
Var(X) =
∑
i
(ai − E(X))2P (X=ai) =
∑
i
(a2i − 2 E(X)ai + E(X)2)P (X=ai)
=
∑
i
a2iP (X=ai)− 2 E(X)
∑
i
aiP (X=ai) + E(X)
2
∑
i
P (X=ai)
= E(X2)− 2 E(X) · E(X) + E(X)2 = E(X2)− E(X)2,
obtenemos (11), que nos dice que la varianza es la esperanza del cuadrado de
X menos el cuadrado de la esperanza de X. Esta es la manera más habitual
CC-BY-NC-ND • PID 00253303 17 Variables aleatorias
de calcular varianzas, puesto que el segundo momento suele ser más fácil de
calcular que la suma en (8).
Ejemplo 2.7
Sean X1 y dos X2 variables aleatorias equiprobables que toman los valores {4, 5, 6} y
{0, 5, 10}, respectivamente. Estos valores podŕıan ser las tres notas obtenidas en una
determinada asignatura por dos alumnos diferentes. Suponiendo que las tres notas tienen
el mismo peso, podemos estimar la esperanza y varianza de cada una de las variables:
E(X1) = 4 ·
1
3
+ 5 ·
1
3
+ 6 ·
1
3
= 5.
E(X2) = 0 ·
1
3
+ 5 ·
1
3
+ 10 ·
1
3
= 5.
Var(X1) = (4− 5)2 ·
1
3
+ (5− 5)2 ·
1
3
+ (6− 5)2 ·
1
3
= 0,66, σX1 = 0,82.
Var(X2) = (0− 5)2 ·
1
3
+ (5− 5)2 ·
1
3
+ (10− 5)2 ·
1
3
= 16,67, σX2 = 4,08.
Lo que podemos decir es que los dos alumnos tienen la misma nota de media E(X1) =
E(X2), pero el segundo alumno presenta más dispersión en sus notas, puesto que σX2 > σX1
(es decir, el segundo alumno es menos regular).
Figura 1
Distribución de las notas
obtenidas por los dos
estudiantes. En el eje
horizontal se representa el
número de prueba, y en el eje
vertical, la nota obtenida.
Los dos estudiantes obtienen
la misma nota media, pero
observad que el primero es
más regular (tiende a sacar
notas en un intervalo menor)
que el segundo, que obtiene
resultados más dispersos.
Figura 1. Notas obtenidas por los dos estudiantes
10
8
6
4
2
0
1 2 3
Alumno 1
Alumno 2
.
Parámetros de las principales variables aleatorias discretas
Para cada una de las distribuciones vistas, se obtienen los valores de la
esperanza y la varianza de la tabla siguiente.
CC-BY-NC-ND • PID 00253303 18 Variables aleatorias
Distribuciones de variables aleatorias discretas
X ∼ k P (X=k) E(X) Var(X)
B(p) {0, 1} P (X=1) = p
P (X=0) = 1− p
p p(1− p)
Bin(n, p) {0, 1, 2, . . . , n} P (X=k) =
(n
k
)
pk(1− p)n−k np np(1− p)
Geom(p) {1, 2, 3, . . . } P (X=k) = (1− p)k−1p
1
p
1− p
p2
Poiss(α) {0, 1, 2, . . . } P (X=k) =
αk
k!
e−α α α
Comprobamos los resultados de la tabla anterior, que corresponden aX ∼ B(p):
• El valor medio, E(X) = 1 · p+ 0 · (1− p) = p.
• El momento de orden 2, E(X2) = 12 · p+ 02 · (1− p) = p.
• La varianza,
Var(X) = p− p2 = p(1− p).
2.3. Función de distribución
Una manera de dar el valor de las probabilidades acumuladas es a partir de la
función de distribución.
.
Definición 2.5. La función de distribución de una variable aleatoria
X se define como
FX(x) = P (X ≤ x), ∀x ∈ R. (12)
Es decir, la función de distribución nos da la probabilidad de que nuestra va-
riable aleatoria X tome un valor igual o menor que un valor x determinado.
Veamos un ejemplo de ello.
CC-BY-NC-ND • PID 00253303 19 Variables aleatorias
Ejemplo 2.8
Para el caso de X ∼ B(p), la función de distribución FX(x) presenta una discontinuidad
de salto en X = 0 y en X = 1:
FX(x) =

0 si x < 0
1− p si 0 ≤ x < 1
1 si 1 ≤ x
Consideramos aqúı que cero es no éxito.
Figura 2
Recordad del subapartado
2.1.1 de este módulo que el
espacio muestral de la
distribución de Bernoulli se
defińıa como
Ω = {Ac, A} = {0, 1}. En la
figura, se ha definido 1− p
como la probabilidad de no
éxito, P (X=0), y p como la
probabilidad de éxito
P (X=1).
Figura 2. Función de distribución de X ∼ B(p)
1
1
FX(x)
x
1 – p
Observad los intervalos definidos en la figura 2. El resultado del experimento aleatorio
nos tiene que dar no éxito o éxito, es decir, 0 o 1. Por lo tanto, la probabilidad de obtener
un número menor que 0 como resultado es nula. En el segundo intervalo de la gráfica,
tenemos la probabilidad de obtener un cero (no éxito), y esta probabilidad es 1− p. Para
la última parte de la gráfica (x ≥ 1), estamos considerando la probabilidad acumulada
de obtener o bien 0 o bien 1. Puesto que sabemos seguro que obtendremos uno de los
dos resultados, la función de distribución vale 1 a partir de este punto. En los casos
de variables aleatorias discretas, la función de distribución es escalonada. La función
experimenta un salto en cada número real que corresponda a un valor que toma X.
Función de distribución
La función de distribución
nos da la probabilidad de que
una variable aleatoria, X,
tenga un valor menor o igual
que una x determinada.
Notad que, por esta razón,
también se denomina
probabilidad acumulada, es
decir, probabilidad de todos
los valores hasta x.
Veamos ahora un segundo ejemplo: la función de distribución por la variable
aleatoria binomial.
Ejemplo 2.9
En el caso X ∼ Bin(4, 1/2), FX(x) presenta una discontinuidad de salto en los valores
del conjunto {0, 1, 2, 3, 4}. Teniendo en cuenta que P (X=k) =
(4
k
)
( 1
2
)k( 1
2
)4−k y que
FX(x) = P (X ≤ k) =
k∑
i=0
(4
i
)(1
2
)i (1
2
)4−i
=
k∑
i=0
(4
i
)(1
2
)4
,
CC-BY-NC-ND • PID 00253303 20 Variables aleatorias
Distribución binomial
Recordad, como hemos visto
en el subapartado 2.1.2 de
este módulo, que la
distribución binomial consiste
en repetir n veces un
experimento de Bernoulli. En
este caso, nuestra variable
aleatoria contabiliza el
número de éxitos que
obtenemos al hacer el
experimento n veces.
obtenemos los valores más significativos de la función de distribución:
FX(0) = 0,0625.
FX(1) = 0,0625 + 0,250 = 0,3125.
FX(2) = 0,0625 + 0,250 + 0,375 = 0,6875.
FX(3) = 0,0625 + 0,2500 + 0,3750 + 0,2500 = 0,9375.
FX(4) = 0,0625 + 0,2500 + 0,3750 + 0,2500 + 0,0625 = 1.
FX(x) =

0 si x < 0
0,0625 si 0 ≤ x < 1
0,3125 si 1 ≤ x < 2
0,6875 si 2 ≤ x < 3
0,9375 si 3 ≤ x < 4
1 si 4 ≤ x
Figura 3
Notad cómo la función de
distribución es un valor que
va acumulando la
probabilidad de obtener un
cierto número de éxitos
iguales o menores que x.
Figura 3. Función de distribución de X ∼ Bin(4, 1
2
)
1
1
0,9375
0,6875
FX(x)
x2 3 4
0,3125
0,0625
Observad la figura. La probabilidad de obtener un número de éxitos menor que cero es
nula, porque si hacemos el experimento de Bernoulli 4 veces obtendremos o bien 0 éxitos
o bien 1, 2, 3 o 4, pero en ningún caso un valor negativo. Por lo tanto, F (x < 0) = 0.
La probabilidad de obtener 0 éxitos es la siguiente:
P (X=0) =
(4
0
)(1
2
)0 (1
2
)4−0
=
1
16
= 0,0625.
Por lo tanto, en x = 0 tenemos un salto de la función de distribución, F (x), que pasa de
valer cero a tener el valor de 0,0625.
Ahora calculamos la probabilidad de tener un éxito en los cuatro experimentos. Esta
probabilidad está determinada por la expresión siguiente:
P (X=1) =
(4
1
)(1
2
)1 (1
2
)4−1
=
1
16
= 0,25.
CC-BY-NC-ND • PID 00253303 21 Variables aleatorias
Aśı pues, la función de distribución, F (x), en x = 1 es la probabilidad acumulada de
obtener cero éxitos o un éxito, es decir, F (1) = 0,0625 + 0,25 = 0,3125.
Si hacemos los cálculos para el resto de los valores de x, en los que x es el número de
éxitos para los cuatro experimentos, obtenemos los valores que se muestran en la figura 3.
Notamos que FX(x) es una probabilidad, de forma que toma valores entre 0 y
1. Además, dados a < b, de la descomposición disjunta (−∞, b] = (∞, a]∪ (a, b]
obtenemos P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b), es decir,
FX(b) = FX(a) + P (a < X ≤ b).
Puesto que P (a < X ≤ b) ≥ 0, tenemos que FX(b) ≥ FX(a), aśı que FX es
una función creciente. Además, si x → −∞, FX(x) da la probabilidad de ∅,
es decir, 0. Si x→∞, FX(x) da la probabilidad de todo R, es decir, 1. Por lo
tanto, se verifican las siguientes propiedades:
.
Propiedades de la función de distribución
1) 0 ≤ FX(x) ≤ 1.
2) ĺım
x→∞
FX(x) = 1.
3) ĺım
x→−∞
FX(x) = 0.
4) FX(x) es creciente, es decir, si a < b entonces FX(a) ≤ FX(b).
5)
P (a < X ≤ b) = FX(b)− FX(a). (13)
Las cuatro primeras propiedades de la función de distribución, FX , se observan
fácilmente en la figura 3. Los valores de las probabilidades acumuladas los
obtenemos directamente de la función de distribución. Damos algunos valores
de esto como ejemplo:
P (X ≤ 0,5) = FX(0,5) = 0,0625.
P (X ≤ 1,7) = FX(1,7) = 0,3125.
P (X ≤ 2,4) = FX(2,4) = 0,6875.
P (1, 7 < X ≤ 2,4) = FX(2,4)− FX(1,7) = 0,375.
CC-BY-NC-ND • PID 00253303 22 Variables aleatorias
En el caso de variables discretas, solo nos interesa conocer la función de distri-
bución en los valores que puede tomar la variable, puesto que FX se mantiene
constante entre uno de estos valores y el siguiente.
Consideramos la probabilidad de un punto aislado cualquiera a. Para calcular
la probabilidad P (X = a), calculamos la de un intervalo (a − �, a] utilizando
(13) y hacemos �→ 0+:
P (X = a) = ĺım
�→0+
P (a− � < X ≤ a) = ĺım
�→0+
(FX(a)− FX(a− �)). (14)
El anterior ĺımite es el salto que da la función FX en el punto a. Como hemos
visto en los ejemplos anteriores, FX tiene una discontinuidad de salto en cada
punto de los posibles. La magnitud del salto es igual a la probabilidad del
punto. En cambio, los puntos en los que FX es continua tienen probabilidad
cero.
Si una variable aleatoria discreta X puede tomar los valores ai ordenados de
manera creciente según el ı́ndice i:
FX(ai) =
∑
j≤i
P (X = aj). (15)
En el caso de una variable X ∼ Bin(n, p), tenemos:
FX(k) =
k∑
l=0
(
n
l
)
pl(1− p)n−l.
Para una variable X ∼ Poiss(α), tenemos:
FX(k) =
k∑
l=0
αl
l!
e−α.
En los dos casos anteriores, no es posible expresar en forma compacta el resul-
tado de los sumatorios. Tenemos que recurrir a software matemático o hacer la
suma cuando el número de términos es pequeño.
Un caso en el que śı podemos calcular el sumatorio que da FX es el de la
variable aleatoria geométrica.
Śı X ∼ Geom(p):
FX(k) = 1− (1− p)k con k ∈ {1, 2, 3, . . .}. (16)
CC-BY-NC-ND • PID 00253303 23 Variables aleatorias
Este se demuestra haciendo el sumatorio
∑k
l=1(1−p)lp (suma de tipo geométri-
co) o con el siguiente razonamiento: FX(k) = P (X ≤ k) = 1 − P (X > k) =
1 − (1
− p)k, puesto que X > k equivale a que en las primeras k realizaciones
se ha obtenido no éxito.
Ejemplo 2.10
Se lanzan dos dados repetidamente, hasta que se obtiene el doble seis. Sea X la variable
que cuenta el número de lanzamientos.
1) Calculamos las siguientes probabilidades:
• Que hagan falta 10 tiradas o menos.
• Que hagan falta 20 tiradas o más.
• Que hagan falta entre 30 y 40 tiradas.
La probabilidad del doble seis es 1/36. El número de tiradas es X ∼ Geom(1/36). Su
función de distribución, según (16), es FX(k) = 1− ( 3536 )
k.
La primera probabilidad pedida es:
P (X ≤ 10) = FX(10) = 1−
(
35
36
)10
= 0,2455.
La segunda probabilidad es:
P (X ≥ 20) = 1− P (X ≤ 19) = 1− FX(19) =
(
35
36
)19
= 0,5855.
La tercera probabilidad es:
P (30 ≤ X ≤ 40) = P (29 < X ≤ 40) = FX(40)− FX(29)
=
(
35
36
)29
−
(
35
36
)40
= 0,1177.
2) ¿Cuál es el número medio de tiradas que hay que hacer?
Se trata de E(X). En la tabla de parámetros, vemos que una variable Geom(p) tiene
esperanza 1/p. Aśı, en nuestro caso E(X) = 36.
3) ¿Cuál es el número mı́nimo de tiradas que nos asegura una probabilidad de al menos
un 90 % de obtener el doble seis?
La probabilidad de que el doble seis salga como muy tarde en la jugada N -ésima es
P (X ≤ N) = FX(N). Entonces, queremos FX(N) ≥ 0,9. La ecuación es:
1−
(
35
36
)N
≥ 0,9.
que implica
N ≥
ln(0,1)
ln(35/36)
= 81,7.
Aśı, son necesarias como mı́nimo 82 tiradas.
CC-BY-NC-ND • PID 00253303 24 Variables aleatorias
3. Variable aleatoria continua
.
En el apartado 2 de este módulo, hemos visto qué es una variable aleatoria
discreta y hemos estudiado cuatro de las distribuciones más utilizadas: la dis-
tribución de Bernoulli, la binomial, la geométrica y la de Poisson. Hemos visto
también los parámetros valor medio y varianza y, finalmente, hemos visto qué
es la función de distribución de una variable aleatoria discreta. La estructura
de este apartado es muy similar a la del anterior. Aqúı veremos los conceptos
anteriores aplicados al caso de las variables aleatorias continuas.
En el ejemplo 1.2 del apartado 1, cuando hemos definido qué es una variable
aleatoria, y hemos visto que la variable aleatoria continua X puede tomar un
valor cualquiera del intervalo [0, 2]. En este caso, si suponemos que ninguno de
los valores dentro de [0, 2] tiene preferencia, podŕıamos encontrar los resultados
siguientes de manera intuitiva:
1) ¿Cuál es la probabilidad de que la señal emitida se encuentre entre 0 y 1
mV, es decir, P (0 ≤ X ≤ 1)? Todo nos hace pensar que es 12 , puesto que
estamos jugando con la mitad de posibilidades.
2) ¿Cuál es la probabilidad de que la señal emitida se encuentre entre 3 y 4 mV,
es decir, P (3 ≤ X ≤ 4)? Dado que sabemos que esto no sucederá nunca, porque
el generador solo nos da una señal en el intervalo [0,2], decimos que es 0.
3) ¿Cuál es la probabilidad de que la señal emitida sea exactamente de 1 mV?
Este caso nos caracteriza las distribuciones de variables aleatorias continuas.
Decimos que P (X=1) = 0. En una distribución de variable aleatoria continua,
la probabilidad en cualquier punto x es cero.
3.1. Función de distribución y función de densidad
La función de distribución se define del mismo modo que para una variable
aleatoria discreta, tal y como lo hab́ıamos definido en el apartado 2.3.
.
Definición 3.1. La función de distribución de una variable alea-
toria X se define como
FX(x) = P (X ≤ x), ∀x ∈ R. (17)
CC-BY-NC-ND • PID 00253303 25 Variables aleatorias
Observad las similitudes en la definición de función de distribución para
variables aleatorias discretas y continuas.
.
La función de distribución FX(x) verifica las propiedades siguientes:
1) 0 ≤ FX(x) ≤ 1.
2) ĺım
x→∞
FX(x) = 1.
3) ĺım
x→−∞
FX(x) = 0.
4) FX(x) es creciente, es decir, si a < b entonces FX(a) ≤ FX(b).
5) P (a < X ≤ b) = FX(b)− FX(a).
Observad que son exactamente las mismas propiedades que hab́ıamos visto para
el caso de las variables aleatorias discretas, pero aplicadas, en este caso, a las
variables continuas.
.
Definición 3.2. Una variable aleatoria X es continua si FX(x) es
continua en todo R y derivable en R (salvo, quizá, un número finito de
puntos).
Esto implica que la probabilidad de un punto aislado vale cero. Aplicando
(14), tenemos P (X = a) = 0.
Funciones continuas y
derivables
Decimos que una función
f(x) es continua si a medida
que nos vamos desplazando
por el eje de la variable
independiente, x, no se
producen saltos o cambios
bruscos. Intuitivamente, son
funciones que podŕıamos
dibujar sobre un papel sin
levantar el lápiz. Decimos
que una función es derivable
o diferenciable en un punto
si existe su derivada en aquel
punto. Recordad que todas
las funciones derivables son
continuas.
.
Definición 3.3. Si X es una variable aleatoria continua con función de
distribución FX(x), la función de densidad se define como:
fX(x) =
dFX(x)
dx
, ∀x ∈ R. (18)
Es decir, la función de densidad, fX(x), es la derivada en función de x (va-
riable independiente que nos dice qué valores puede tomar nuestra variable
aleatoria X) de la función de distribución, FX(x). Recordad que la función de
distribución nos daba la probabilidad acumulada a medida que ı́bamos consi-
derando los valores posibles de la variable aleatoria. La función de densidad,
fX(x), nos da una idea de cómo vaŕıa la función de distribución de una variable
aleatoria. E inversamente, la función de distribución es la integral sobre x de
la función de distribución.
CC-BY-NC-ND • PID 00253303 26 Variables aleatorias
Veamos un ejemplo. Como podéis ver en la figura 4, el área por debajo de la
curva de f(x) corresponde a un punto de F (x).
Figura 4
En la figura, podéis observar
la relación entre la función de
distribución, FX(x), y la
función de densidad, fX(x).
Figura 4. Función de densidad f(x) y función de distribución F (x)
f(x)
F(x)
x
x
1
A continuación, veamos qué relaciones hay entre la función de distribución,
FX(x), y la función de densidad, fX(x), de una variable aleatoria continua.
Observación
Si X es una variable aleatoria
continua, entonces
P (a ≤ X ≤ b) =
P (a < X < b).
En efecto, dado que la
probabilidad de un punto es
cero, la probabilidad de un
intervalo no vaŕıa, incluyamos
o no sus puntos extremos.
.
Propiedades de la función de densidad
Si X es una variable aleatoria continua con función de distribución FX(x)
y función de densidad fX(x), entonces:
1)
fX(x) ≥ 0. (19)
Esto está claro si observamos la ecuación (18) de la definición 3.3 y
pensamos que FX(x) es creciente, puesto que una función creciente
siempre tiene pendiente positiva.
CC-BY-NC-ND • PID 00253303 27 Variables aleatorias
.
2)
P (a ≤ X ≤ b) = FX(b)− FX(a) =
∫ b
a
fX(x) dx. (20)
Es decir, la probabilidad entre dos puntos a y b la obtenemos in-
tegrando la función de densidad entre estos dos puntos, es decir, el
área por debajo de la curva de la función de densidad (el resultado se
deduce del hecho de que FX es una primitiva de fX y es continua).
3)
FX(x) =
∫ x
−∞
fX(t) dt (21)
Es decir, la probabilidad acumulada también la podemos pensar como
un área por debajo de la función de densidad fX(x). Esto se deduce
de (20) con a = −∞ y b = x, ya que X ≤ x corresponde al intervalo
(−∞, x].
4)
∫ ∞
−∞
fX(x) dx = 1. (22)
Es decir, el área total por debajo de la curva fX(x) es 1. Se obtiene
de (21) haciendo x→∞.
Llegados a este punto, nos podŕıamos preguntar: ¿por qué es necesario definir
la función de densidad de una variable aleatoria continua si ya tenemos el
concepto de función
de distribución, como hab́ıamos visto con las variables
aleatorias discretas? La respuesta es que para el caso de las variables continuas,
no siempre es posible expresar la función de distribución de una manera sencilla
y cerrada. Además, muchas de las propiedades de estas variables se ven más
claramente cuando utilizamos la función de densidad en vez de la función de
distribución.
3.2. Variables aleatorias continuas más importantes
Como acabamos de ver en el subapartado anterior, cuando trabajamos con
variables aleatorias continuas, estas se pueden caracterizar con su función de
densidad. Veamos a continuación las más importantes.
CC-BY-NC-ND • PID 00253303 28 Variables aleatorias
3.2.1. Variable aleatoria uniforme: U(a, b)
.
La variable X puede tomar un valor cualquiera del intervalo (a, b) y de
manera uniforme. En este caso, decimos que X es una variable aleato-
ria uniforme en (a, b). Esto lo indicamos con la función de densidad:
f(x) =

1
b− a
si a < x < b
0 de otro modo
(23)
La función de distribución será, pues:
F (x) =
∫ x
−∞
fX(t) dt =

0 si x < a
1
b− a
(x− a) si a ≤ x < b
1 si b ≤ x
(24)
Escribimos X ∼ U(a, b).
Figura 5
Función de densidad f(x) y
función de distribución F (x)
de una variable aleatoria
uniforme X ∼ U(a, b).
Observad que la probabilidad
acumulada en el punto x,
F (x) corresponde al área
bajo la función de densidad
f(x).
En la figura 5, podéis ver un ejemplo de variable uniforme y sus funciones de
densidad y de distribución. Como podéis ver, el área indicada por debajo de
f(x) corresponde a un punto de F (x).
Figura 5. Función de densidad f(x) y función de distribución
F (x) de la variable aleatoria X ∼ U(a, b)
f(x)
F(x)
x
1
ba
x ba
CC-BY-NC-ND • PID 00253303 29 Variables aleatorias
El ejemplo 1.2 sigue una distribución X ∼ U(0, 2). De este modo, la probabili-
dad de que la señal emitida se encuentre entre 0 y 1 mV nos la da el área por
debajo de la curva de la función de densidad, que en este caso corresponde al
área de un rectángulo de base 1 y altura 12 . Es decir, P (0 ≤ X ≤ 1) =
1
2 .
Otro ejemplo de sistema que utiliza las distribuciones uniformes son los gene-
radores de números aleatorios. Estos dispositivos generan números dentro de
un intervalo determinado de manera uniforme, de tal manera que todos los
números tienen la misma probabilidad de ser generados. Veamos un ejemplo a
continuación.
Ejemplo 3.1
Elegimos al azar un número, X, en el intervalo (0, 5). La función de densidad es:
f(x) =

1
5
si x ∈ (0, 5)
0 de otro modo
Calculamos algunas probabilidades.
1) Probabilidad de que el número sea menor que 3, P (X < 3) =
∫ 3
0
1
5
dx = 3
5
.
2) Sabiendo que el número es mayor que 2, probabilidad de que sea menor que 3,
P (X < 3 |X > 2) =
P (2 < X < 3)
P (X > 2)
=
1/5
3/5
=
1
3
.
Véase también
Recordad el subapartado 2.3
del módulo ((Introducción a
la probabilidad)), en el que
vimos la probabilidad
condicionada, es decir, la
probabilidad de un suceso
sabiendo que se ha producido
otro suceso conocido.
3.2.2. Variable aleatoria exponencial: Exp(λ)
La distribución exponencial se suele utilizar para modelizar experiencias en las
que interviene un tiempo de espera, como:
• Tiempo de espera en una consulta sin cita previa.
• Tiempo de espera en un servidor para recibir respuesta a una petición en-
viada.
• La vida de un componente electrónico.
La distribución de Poisson que hemos visto en el apartado de las variables
aleatorias discretas está muy relacionada con la distribución exponencial. Si un
proceso es de Poisson (suceso aleatorio en el tiempo), la variable tiempo, t, que
pasa hasta que tiene lugar el primer suceso, es exponencial. Hay que destacar
que el parámetro de la variable de Poisson vale α = λT , donde T es el intervalo
en el que contamos los acontecimientos que suceden.
CC-BY-NC-ND • PID 00253303 30 Variables aleatorias
.
La variable aleatoria exponencial tiene por función de densidad:
f(x) =

λe−λx si x ≥ 0
0 x < 0
(25)
Obtenemos la función de distribución integrando. Aśı,
F (x) =

1− e−λx si x ≥ 0
0 x < 0
(26)
Escribimos X ∼ Exp(λ).
En la figura 6 vemos la representación de la función de densidad, para tres
valores diferentes de λ. (No se ha representado el eje negativo de abscisas, en
el que la función es 0.)
Figura 6
Representación de la función
de densidad de una variable
exponencial para los valores
de λ 1, 2 y 3. Cuanto mayor
es λ (más llamadas por
unidad de tiempo, por
ejemplo), es más probable
que tengamos que esperar
poco tiempo hasta que llegue
una llamada.
Figura 6. Funciones densidad de X ∼ Exp(1), X ∼ Exp(2) y X ∼ Exp(3)
x
1
λ = 2
0 2 3 4
4
3
2
1
y
λ = 1
λ = 3
CC-BY-NC-ND • PID 00253303 31 Variables aleatorias
Observad que, tal y como λ crece, el pico de la función en torno a x = 0
se acentúa. La causa de esto es que, si llegan muchos sucesos por unidad de
tiempo, la mayor parte de la probabilidad de tener una llegada se concentra en
valores de x pequeños. Por el contrario, si tenemos pocos sucesos por unidad
de tiempo (α o λ pequeños), la probabilidad de llegada es más uniforme.
Ejemplo 3.2
Supongamos que el tiempo, en horas, que se necesita para arreglar un cierto tipo de
aveŕıa telefónica es una variable aleatoria, T , que sigue una ley exponencial de parámetro
λ = 0,5. En este caso, tenemos f(t) = 0,5e−0,5t y F (t) = 1−e−0,5t para x ≥ 0. Calculamos
algunas probabilidades:
Véase también
Aqúı volvemos a utilizar la
noción de probabilidad
condicionada del subapartado
2.3 del módulo ((Introducción
a la probabilidad)).
1) Probabilidad de que el tiempo de reparación pase de las 2 horas. Es decir,
P (T > 2) = 1− P (T < 2) = 1− F (2) = e−1 = 0, 368.
2) Sabiendo que el tiempo de reparación ya ha sobrepasado las 9 horas, ¿cuál es la
probabilidad de que la reparación tarde al menos 10 horas? En este caso, se trata de
encontrar una probabilidad condicionada. Escribimos:
P (T > 10 |T > 9) =
P ({T > 10} ∩ {T > 9})
P (T > 9)
=
P (T > 10)
P (T > 9)
=
1− F (10)
1− F (9)
= e−0,5·1 = 0,606.
3.2.3. Variable aleatoria normal o de Gauss: N(m,σ)
Parámetros de la
distribución normal
La distribución normal o de
Gauss se caracteriza por dos
parámetros: el valor medio m
(parámetro de posición), y la
desviación t́ıpica σ,
parámetro que nos mide la
dispersión de la variable
aleatoria respecto a m.
Es una de las distribuciones de probabilidad más utilizadas. Muchos fenómenos
f́ısicos que afectan a circuitos y aparatos de telecomunicaciones se modelizan
utilizando la distribución normal o de Gauss. También se utiliza con mucha
frecuencia para el control de calidad estad́ıstico de componentes electrónicos.
Depende de dos parámetros, m y σ, que veremos en el subapartado siguiente.
Una particularidad que presenta esta distribución es que se trata de la forma
ĺımite de algunas distribuciones discretas cuando se aumenta indefinidamente
el número de repeticiones de un experimento. Muchas variables aleatorias co-
mo pesos, alturas, tallas, consumos de gas, etc. siguen una distribución normal
porque cada una es la suma de un gran número de variables aleatorias indepen-
dientes. De este modo, la altura de una persona es la suma de muchos factores,
hereditarios, alimentación, tipo de vida, etc.
Los errores, denominados aleatorios, que se presentan en observaciones as-
tronómicas, pesadas de una balanza, el ruido generado en los aparatos de teleco-
municación, etc. y, en general, en la mayoŕıa de las medidas con algún aparato,
son la suma de un gran número
de errores elementales independientes como
corrientes de aire, vibraciones, error de apreciación, etc. Por eso, los errores
aleatorios siguen una distribución normal.
CC-BY-NC-ND • PID 00253303 32 Variables aleatorias
.
La variable aleatoria normal tiene por función de densidad:
f(x) =
1√
2πσ
e−
(x−m)2
2σ2 , ∀x ∈ R. (27)
m ∈ R es la esperanza de X y σ > 0 es la desviación t́ıpica de X.
Escribimos X ∼ N(m,σ).
Cálculo de probabilidades
Para calcular probabilidades,
utilizaremos tablas
estad́ısticas o bien algún
software matemático de tipo
Scilab, Excel, Wiris, Minitab,
SPSS, R, etc.
En este caso, la función de distribución no se puede encontrar integrando
anaĺıticamente de manera sencilla, como lo hemos hecho antes. Por esta razón,
nos será más útil trabajar con la función de densidad.
Veamos algunos gráficos de la función de densidad al variar los parámetros m
y σ.
En la figura 7, hemos representado N(0, 1) y N(2, 1). El primer parámetro de
la función N(x, y) (0 y 2 en este ejemplo) hace referencia al valor medio. El
segundo parámetro (1 en los dos ejemplos) es la desviación estándar. Observad
que, dado que las dos variables aleatorias tienen la misma desviación t́ıpica,
σ (sigma), la forma de la función no ha variado. N(2, 1) está trasladada dos
unidades a la derecha respecto de N(0, 1), puesto que el valor medio es diferente
en cada caso.
Figura 7
La curva de la izquierda
representa la distribución
N(0, 1), centrada en 0 y con
una desviación t́ıpica de valor
1. La curva de la derecha
representa la distribución
N(2, 1), con valor medio 2 y
desviación estándar 1.
Figura 7. Funciones de densidad de X ∼ N(0, 1) y X ∼ N(2, 1)
10 2 3 4
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
N(0,1)
5 6–1–2–3–4
N(2,1)
En la figura 8, fijamos el valor a m = 0 y modificamos σ. Observamos que
para un valor menor que σ hay menos dispersión. Para σ = 2 tenemos más
dispersión y, por lo tanto, la función de densidad es menos puntiaguda.
CC-BY-NC-ND • PID 00253303 33 Variables aleatorias
Figura 8
La función N(0, 1) es una
distribución gaussiana con
media 0 y desviación
estándar 1. En la función
N(0, 2) hemos aumentado la
desviación estándar, y dado
que tenemos más dispersión,
esta función es más plana,
menos puntiaguda. Notad,
sin embargo, que el área total
bajo las dos curvas ha de ser
la misma e igual a 1.
Figura 8. Funciones de densidad de X ∼ N(0, 1) y X ∼ N(0, 2)
20 4 6 8
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
N(0,1)
N(0,2)
–2–4–6–8
Observad que aunque cambie la forma de la función, el área total por debajo de la curva es 1, la probabilidad total.
Puesto que no podemos integrar anaĺıticamente f(x), para encontrar probabi-
lidades hay que utilizar tablas o bien algún software matemático o estad́ıstico.
Figura 9
En este ejemplo, se ha
calculado la probabilidad de
que x < −1. Para hacerlo,
hemos calculado el área bajo
la distribución de Gauss
desde −∞ hasta x = 1.
Utilizando software
matemático, se ha
encontrado que
P (x < −1) = 0, 158655.
Figura 9. Función de densidad de X ∼ N(0, 1)
20 4
f(x)
–2–4 x
0,2
3.3. Parámetros: valor medio (esperanza) y varianza
En el subapartado anterior, hemos visto tres de las distribuciones continuas más
frecuentes: la distribución uniforme, la exponencial y la de Gauss. De manera
parecida a como lo hemos hecho para el caso de las variables aleatorias discretas,
en este subapartado veremos dos parámetros que definen estas distribuciones:
el valor medio y la varianza. La diferencia fundamental entre las variables
discretas y las continuas es que, en este caso, transformaremos los sumatorios
que hab́ıamos visto en el subapartado 2.2 en integrales. El significado de los
parámetros es el mismo que en el caso discreto.
CC-BY-NC-ND • PID 00253303 34 Variables aleatorias
.
Definición 3.4. Sea X una variable aleatoria continua.
El valor medio, esperanza o momento de orden 1 de X:
E(X) =
∫ ∞
−∞
xf(x) dx. (28)
El momento de orden 2:
E(X2) =
∫ ∞
−∞
x2f(x) dx. (29)
El momento de orden k , (k = 0, 1, 2, . . .):
E(Xk) =
∫ ∞
−∞
xkf(x) dx. (30)
La varianza:
Var(X) =
∫ ∞
−∞
(x− E(X))2f(x) dx = E(X2)− E(X)2. (31)
La desviación t́ıpica:
σ =
√
Var(X). (32)
.
Parámetros de las principales variables aleatorias continuas
Para cada una de las distribuciones vistas, se obtienen los valores de la
esperanza y la varianza de la tabla siguiente.
Distribuciones de variables aleatorias continuas
X ∼ Función de densidad E(X) Var(X)
U(a, b) f(x) =

1
b− a
si x ∈ (a, b)
0 de otro modo
a+ b
2
(b− a)2
12
N(m,σ) f(x) =
1
√
2πσ
e
− (x−m)
2
2σ2 ∀x ∈ R m σ2
Exp(λ) f(x) =
{
λ e−λx si x ≥ 0
0 de otro modo
1
λ
1
λ2
CC-BY-NC-ND • PID 00253303 35 Variables aleatorias
Comprobamos algún resultado para el caso de X ∼ Exp(λ):
E(X) =
∫ ∞
−∞
xf(x) dx =
∫ ∞
0
xλe−λx dx =
 u = x i du = dxdv = λe−λx i v = −e−λx
 =
=
[
−xe−λx
]∞
0
+
∫ ∞
0
e−λx dx = ĺım
x→∞
(−xe−λx)− ĺım
x→0
(−xe−λx) + 1
λ
=
= 0 + 0 +
1
λ
.
3.4. Variables aleatorias mixtas
Como hemos visto, las variables aleatorias discretas tienen una función de dis-
tribución constante a trozos, y las variables aleatorias continuas tienen una
función de distribución continua en todo R y derivable a trozos. Esto no agota
todas las posibilidades, puesto que podemos tener una función de distribución
que sea derivable a trozos y que tenga algunas discontinuidades de salto. En
este caso, hablamos de variables aleatorias mixtas. Para estas, tenemos algu-
nos puntos con probabilidad no nula (P (X = a) > 0) y, además, pueden tomar
todos los valores de conjuntos como intervalos reales.
Ejemplo 3.3
Consideramos una variable aleatoria con función de distribución
F (x) =

0 si x < 0
x+ 1
x+ 2
si x ≥ 0
La anterior función es creciente, tiende a 0 para x → −∞ y tiende a 1 por x → ∞, aśı
que es una función de distribución correcta.
La variable X no es continua, puesto que en x = 0 F (x) salta de 0 a 1/2. Entonces
P (X = 0) = 1/2, probabilidad que seŕıa cero para una variable continua.
Tampoco es discreta, puesto que puede tomar cualquier valor positivo dado que F (x) es
estrictamente creciente para x > 0.
Se trata, pues, de una variable mixta. No tiene una densidad definida, debido a la disconti-
nuidad en cero. Aun aśı, se puede definir una densidad utilizando funciones generalizadas
(delta de Dirac), tal y como se verá en el apartado 3.6.
3.5. Funciones de densidad condicionadas
Del mismo modo que la probabilidad de un suceso, P (A), cambia cuando sa-
bemos que se ha producido otro suceso B, para pasar a ser P (A |B), las carac-
teŕısticas de las variables aleatorias también cambian en esta situación.
CC-BY-NC-ND • PID 00253303 36 Variables aleatorias
Ejemplo 3.4
Consideramos una variable X que da el tiempo que pasa hasta que llega una señal de
comunicación. Si ha pasado un cierto tiempo, digamos que 2 segundos, y la señal no ha
llegado, la probabilidad de que X tome ciertos valores queda condicionada por este hecho.
En este caso, B = {X > 2} y, dado B, la probabilidad de que, por ejemplo, X > 5 se
tiene que calcular como una probabilidad condicionada: P (X > 5 |B).
En esta situación, puede ser más práctico tener una densidad para la variable X que ya
incorpore la condición. Esto nos lleva a definir la densidad condicionada.
Si B es un suceso que afecta a la variable aleatoria X, la densidad de X, f(x),
se modifica para pasar a ser f(x |B), densidad de X condicionada al suceso B.
A partir de aqúı,
podemos calcular la esperanza de X condicionada al suceso
B:
E(X |B) =
∫ ∞
−∞
xf(x |B)dx. (33)
La situación que consideramos se produce cuando el suceso B es de la forma
X ∈ A, donde A es un subconjunto de R. El resultado es el siguiente:
f(x |X ∈ A) =

f(x)
P (A)
si x ∈ A
0 si x 6∈ A
(34)
En el anterior ejemplo, este seŕıa el caso. Con B = {X > 2} es A = (2,∞).
Ejemplo 3.5
El tiempo que tarda un servidor en procesar una petición es una variable aleatoria X de
tipo exponencial con valor medio de 2 segundos. Suponemos que pasado 1 segundo, el
proceso todav́ıa no ha acabado. ¿Cuál es la densidad y el valor medio de X condicionados
a este hecho?
X ∼ Exp(1/2), puesto que el valor medio es 1/λ = 2. La densidad de X es f(x) = 1
2
e−x/2,
x ≥ 0 y la función de distribución de X es F (x) = 1− e−x/2, x ≥ 0.
La condición que tenemos es X > 1, aśı que el conjunto A es (1,∞). Notamos que su
probabilidad vale P (A) = P (X > 1) = 1− P (X ≤ 1) = 1− F (1) = e−1/2. Entonces:
f(x |X > 1) =

1
2
e−x/2
e−1/2
= 1
2
e−(x−1)/2 si x > 1
0 si x < 1
La esperanza condicionada vale:
E(X |X > 1) =
∫ ∞
1
x
1
2
e−
x−1
2 dx = [−(x+ 2)e−
x−1
2 ]∞1 = 3.
CC-BY-NC-ND • PID 00253303 37 Variables aleatorias
Notamos que esta esperanza es mayor que la esperanza sin condicionar, E(X) = 2, puesto
que la condición desplaza el peso de las probabilidades hacia valores mayores.
3.6. Delta de Dirac. Densidad en el caso discreto
Las variables aleatorias discretas y las mixtas tienen funciones de distribución
con discontinuidades de salto. En estos casos, no existe la derivada y, por lo
tanto, no hay una función de densidad en el sentido de la fórmula (18) o la (20).
Esto es posible hacerlo utilizando las denominadas funciones generalizadas,
más concretamente, la delta de Dirac. Su definición es:
.
Definición 3.5. La función generalizada delta de Dirac, δ(x), se define
a través de la siguiente propiedad formal:
Para toda función continua g(x) y números α < β se verifica:
∫ β
α
δ(x)g(x) dx =
 g(0) si α < 0 < β0 de otro modo (35)
Más generalmente, utilizamos la delta desplazada al punto a:
∫ β
α
δ(x− a)g(x) dx =
 g(a) si α < a < β0 de otro modo (36)
Notamos que
∫ β
α
δ(x−a) dx = 1 siempre que el intervalo de integración contenga
el punto a, por pequeño que sea este intervalo. Esto no se podŕıa conseguir con
ninguna función ordinaria. Una visualización de la δ(x − a) seŕıa una función
que vale 0 para toda x 6= a y vale ∞ en el punto a, de forma que la integral
valga 1 (figura 10).
Dado que la probabilidad de una variable aleatoria discreta se concentra en pun-
tos aislados, es razonable representarla con una densidad con deltas de Dirac.
Si X es una variable aleatoria discreta que toma valores ai con probabilidades
PX(ai) = P (X = ai), le podemos asociar la siguiente densidad:
fX(x) =
∑
i
PX(ai)δ(x− ai). (37)
CC-BY-NC-ND • PID 00253303 38 Variables aleatorias
Figura 10. Delta de Dirac centrada en el punto a
Una manera más precisa de llegar al anterior resultado es a través de la función
escalón:
.
Definición 3.6. La función escalón o función de Heaviside, u(x)
es:
u(x) =
 1 si x ≥ 00 si x < 0 (38)
La función escalón se relaciona con la delta de la siguiente manera:
d
dx
u(x− a) = δ(x− a). (39)
En efecto, de (36) deducimos que:
∫ x
−∞ δ(y − a) dy = 0 para x < a, mientras
que∫ x
−∞ δ(y − a) dy = 1 para x > a, aśı que
∫ x
−∞
δ(y − a) dy = u(x− a).
Derivando los dos lados de la anterior ecuación, sale (39).
CC-BY-NC-ND • PID 00253303 39 Variables aleatorias
Ahora, podemos expresar la función de distribución de una variable discreta o
mixta con funciones escalón y derivarla utilizando (39).
Por una variable discreta, podemos expresar la función de distribución:
FX(x) =
∑
i
PX(ai)u(x− ai),
puesto que FX es una función escalonada y la altura de cada escalón es el factor
PX(ai). Derivando la anterior ecuación, se obtiene (37).
En el caso de variables mixtas, conviene tener en cuenta la siguiente propiedad.
Para cualquier función continua h(x):
δ(x− a)h(x) = δ(x− a)h(a). (40)
La anterior igualdad se demuestra multiplicando los dos lados por cualquier
función continua g(x) y viendo que al integrar sobre cualquier intervalo, se
obtiene el mismo resultado en los dos lados.
Ejemplo 3.6
Obtendremos la densidad por la variable mixta del ejemplo 3.3.
Podemos expresar la distribución de X como: F (x) = u(x)x+1
x+2
Derivando, y utilizando (40):
f(x) = u′(x)
x+ 1
x+ 2
+ u(x)
(
x+ 1
x+ 2
)′
= δ(x)
x+ 1
x+ 2
+ u(x)
1
(x+ 2)2
=
1
2
δ(x) + u(x)
1
(x+ 2)2
.
CC-BY-NC-ND • PID 00253303 40 Variables aleatorias
4. Teorema central del ĺımite. Aplicación
.
En este módulo, hemos visto las variables aleatorias discretas y continuas. Para
cada variable aleatoria, hemos calculado el valor medio y la varianza. Estos
parámetros nos dan una idea global del comportamiento de la variable aleatoria.
También, para cada una de las variables estudiadas, hemos visto la función de
distribución, que nos permite calcular la probabilidad acumulada dado un cierto
valor x y la función de densidad, que nos dice cómo vaŕıa (es la derivada en
función de x) la función de distribución.
En este último apartado de este módulo, veremos cómo podemos relacionar las
variables aleatorias discretas vistas en el apartado 2 con la variable aleatoria
continua normal o de Gauss que hemos visto en el apartado 3. Tal y como hemos
dicho antes, la distribución normal es la forma ĺımite de algunas distribuciones
discretas, cuando se aumenta indefinidamente el número de repeticiones de un
experimento.
Recordad el ejemplo 2.8 que hemos visto en el subapartado 2.2, en el que
teńıamos la distribución de notas de dos alumnos como ejemplo de distribución
discreta. Observad que alĺı hemos calculado el valor medio y la desviación
t́ıpica, justamente los parámetros que definen una distribución normal. ¿Qué
pasaŕıa si en nuestra distribución discreta aumentáramos el número de muestras
y en vez de 3 resultados tomáramos muchas más notas? ¿O si dibujásemos la
distribución de notas, no de 2, sino de muchos más alumnos? Esto es lo que
nos permite el teorema central del ĺımite: aproximar una distribución discreta
a una normal cuando aumentamos el número de muestras y se dan una serie
de condiciones que veremos a continuación. Enunciamos el teorema central del
ĺımite (TCL), que refleja este hecho.
Observación
El teorema central del ĺımite
nos permite aproximar una
variable aleatoria discreta a
una distribución de Gauss
cuando repetimos un número
lo bastante grande de veces
un experimento.
.
Teorema central del ĺımite
Sea {Xn} con n ≥ 1 una sucesión de variables aleatorias independientes,
que siguen la misma ley de probabilidad, con una esperanza m y varianza
σ2. Consideramos la nueva variable aleatoria definida por:
Yn =
1
n
n∑
i=1
Xi −m
σ√
n
. (41)
Esta variable, tal y como la hemos definido, tiene un valor medio igual a
cero y una varianza igual a 1. Se tiene que la variable Yn converge hacia
la distribución N(0, 1) cuando n tiende a infinito. La distribución N(0, 1)
también se conoce como distribución normal estándar.
CC-BY-NC-ND • PID 00253303 41 Variables aleatorias
De manera alternativa, podemos considerar la variable:
Sn =
n∑
i=1
Xi.
Entonces, el TCL nos dice que para n grande Sn ∼ N(nm,
√
nσ).
4.1. Aproximación de ley binomial a la normal
Si estamos trabajando con una variable discreta X ∼ Bin(n, p), recordemos que
X cuenta el número de éxitos en n repeticiones de un experimento de Bernoulli.
Entonces podemos expresarla como X =
∑n
i=1Xi, donde las Xi son variables
de Bernoulli independientes. Xi es un indicador que vale 1 si la i-ésima vez que
hacemos el experimento se obtiene éxito, y 0 en caso contrario. La suma de los
indicadores da el número total de éxitos.
Siendo Xi ∼ B(p), tenemos E(Xi) = p y Var(Xi) = p(1 − p). Aplicando el
TCL, si n es grande, X se aproxima a una normal Y ∼ N(np,
√
np(1− p)),
en la que la variable Y tiene la misma esperanza y varianza que X. Observad
que, en este caso, el valor medio de la distribución normal, m, es igual a np,
y la desviación, σ, es
√
np(1− p), en la que n y p son los parámetros de la
distribución binomial.
Aunque en el teorema anterior se habla de aproximación cuando n tiende a
infinito, en la práctica esta aproximación es válida cuando se cumple np > 5 y
n(1− p) > 5.
Observación
Recordad que X ∼ Bin(n, p)
es el número de n
experiencias de Bernoulli
B(p) indexadas.
Hay que tener en cuenta que pasamos de una distribución discreta que toma
valores enteros entre 0 y n a una variable continua que toma valores en todo R.
Además, en el caso de la ley binomial, la probabilidad en un punto es diferente
de cero, mientras que no es aśı en el caso de la ley normal, porque es una
distribución continua.
Por estas razones, cuando aproximamos una distribución binomial a una nor-
mal, hay que hacer una corrección de continuidad de la manera siguiente:
Observación
Observad los factores −0, 5 y
+0, 5, que hemos añadido a
los ĺımites a y b a causa de la
corrección de continuidad.
Si X ∼ Bin(n, p) con np > 5 y n(1−p) > 5 y queremos calcular P (a ≤ X ≤ b),
consideramos la variable Y ∼ N(np,
√
np(1− p)) y calculamos P (a − 0,5 <
Y < b+ 0,5).
Ejemplo 4.1
En un almacén, se ha analizado durante un año el porcentaje de piezas defectuosas y se
ha detectado un 8 % de las mismas. Es decir, podemos considerar que la probabilidad de
que una pieza sea defectuosa es de 0, 08. Se toma una muestra de piezas 100 y se define la
CC-BY-NC-ND • PID 00253303 42 Variables aleatorias
variable aleatoria X como el número de piezas defectuosas dentro de la muestra de 100.
La variable aleatoria X sigue una ley binomial Bin(100, 0,08), puesto que repetiremos el
experimento de tomar una pieza 100 veces, y la probabilidad de éxito (aqúı definimos
éxito como la obtención de una pieza defectuosa) es 0,08. Calculamos la probabilidad de
que en las 100 piezas haya entre 10 y 20 defectuosas.
Primero lo calculamos sin hacer la aproximación. Puesto que X ∼ Bin(100, 0,08),
P (10 ≤ X ≤ 20) =
20∑
k=10
(100
k
)
0,08k0,92100−k = 0,2779.
Comprobamos a continuación que podemos hacer la aproximación de la distribución
binomial a una normal:
• np = 100 · 0,08 = 8 > 5.
• n(1− p) = 100 · 0,92 = 92 > 5.
Una vez confirmado que podemos hacer la aproximación, tomamos una distribución nor-
mal con los parámetros siguientes: m = np = 8 y σ =
√
np(1− p) = 2,713. Por lo tanto,
nuestra distribución normal es Y ∼ N(8, 2,713). La probabilidad de que en 100 piezas
haya entre 10 y 20 defectuosas es:
P (10 ≤ X ≤ 20) = P (9,5 < Y < 20,5) = 0,2901.
Recordad que tenemos que corregir los ĺımites del intervalo con el factor 0, 5. El último
valor numérico se ha obtenido con la ayuda de un software matemático.
CC-BY-NC-ND • PID 00253303 43 Variables aleatorias
Resumen
En el apartado 1, hemos visto qué es una variable aleatoria y la hemos
definido como una función que asigna un número a cada elemento del espacio
muestral Ω. Por ejemplo, si lanzamos una moneda, podemos definir X = 0 si
obtenemos cara y X = 1 si obtenemos cruz.
También hemos visto que hay dos tipos de variables aleatorias:
• Variables aleatorias discretas: los valores que puede tomar X se encuentran
dentro de un conjunto finito o infinito numerable de elementos.
• Variables aleatorias continuas: X puede tomar cualquier valor en conjuntos
no numerables.
El apartado 2 lo hemos dedicado a estudiar en detalle algunas de las variables
aleatorias discretas más importantes. Hemos definido qué es la función de
probabilidad y hemos visto las distribuciones siguientes:
• Variable aleatoria discreta uniforme.
• Distribución de Bernoulli, B(p), definida por el parámetro p (probabilidad
de éxito).
• Distribución binomial, Bin(n, p), que consiste en un experimento de Ber-
noulli repetido n veces.
• Distribución geométrica, Geom(p), que se da cuando repetimos el experi-
mento de Bernoulli hasta que obtenemos el primer éxito.
• Distribución de Poisson, Poiss(α), caracterizada por el parámetro α (núme-
ro medio de sucesos dentro de un cierto intervalo).
Hemos definido los momentos de orden n de una variable aleatoria discreta
y, en particular, hemos visto la esperanza o valor medio, la varianza y la
desviación t́ıpica. Definimos el valor medio o esperanza como se indica a
continuación:
E(X) =
n∑
i=1
aiP (X=ai).
El momento de orden 2 es:
E(X2) =
n∑
i=1
a2iP (X=ai).
CC-BY-NC-ND • PID 00253303 44 Variables aleatorias
La varianza y la desviación t́ıpica son:
Var(X) = E(X2)− E(X)2, σ =
√
Var(X).
Finalmente, hemos visto el concepto de función de distribución como fun-
ción de probabilidad acumulada que nos da la probabilidad de que la variable
aleatoria X sea igual o menor que un cierto valor x:
FX(x) = P (X ≤ x), ∀x ∈ R.
En la tabla siguiente, podéis ver los parámetros más importantes para las va-
riables aleatorias discretas que hemos visto.
Distribuciones de variables aleatorias discretas
X ∼ k P (X=k) E(X) Var(X)
B(p) {0, 1} P (X=1) = p
P (X=0) = 1− p
p p(1− p)
Bin(n, p) {0, 1, 2, . . . , n} P (X=k) =
(n
k
)
pk(1− p)n−k np np(1− p)
Geom(p) {1, 2, 3, . . . } P (X=k) = (1− p)k−1p 1
p
1−p
p2
Poiss(α) {0, 1, 2, . . . } P (X=k) = α
k
k!
e−α α α
Hemos dedicado el apartado 3 al estudio de las variables aleatorias continuas.
Hemos empezado el apartado definiendo la función de distribución, que con-
ceptualmente es la misma que para el caso de las variables discretas. Para el
caso de las variables continuas, hemos definido una nueva función, la función
de densidad, que es la derivada de la función de distribución. A continua-
ción, hemos visto las variables aleatorias continuas más importantes:
• La distribución uniforme, X ∼ U(a, b), caracterizada por el intervalo (a, b),
en el que la función de densidad es constante y vale 1b−a en este intervalo.
• La distribución exponencial, Exp (λ), en la que λ es la tasa de sucesos por
unidad de tiempo.
• La distribución normal o de Gauss, N(m,σ), caracterizada por el valor
medio y la desviación t́ıpica.
CC-BY-NC-ND • PID 00253303 45 Variables aleatorias
Del mismo modo que hemos hecho en el apartado 2 con las variables aleatorias
discretas, hemos visto también en este apartado que para las variables aleatorias
continuas, podemos definir los momentos de orden n, la varianza y la
desviación t́ıpica. El valor medio o esperanza se expresa como sigue:
E(X) =
∫ ∞
−∞
xf(x)dx.
El momento de orden 2 es:
E(X2) =
∫ ∞
−∞
x2f(x)dx.
La varianza y la desviación estándar son:
Var(X) = E(X2)− E(X)2, σ =
√
Var(X).
La función de distribución y de densidad las definimos como sigue:
FX(x) = P (X ≤ x), fX(x) =
dFX(x)
dx
.
En la tabla siguiente, podéis ver los parámetros más importantes para las va-
riables aleatorias continuas que hemos visto.
Distribuciones de variables aleatorias continuas
X ∼ Función de densidad E(X) Var(X)
U(a, b) f(x) =
 1b−a si x ∈ (a, b)0 de otro modo a+b2 (b−a)
2
12
N(m,σ) f(x) =
1
√
2πσ
e
− (x−m)
2
2σ2 ∀x ∈ R m σ2
Exp(λ) f(x) =
{
λ e−λx si x ≥ 0
0 de otro modo
1
λ
1
λ2
Finalmente, en el apartado 4, hemos visto
el teorema central del ĺımite.
Este teorema nos permite aproximar la suma o la media de una sucesión de
variables aleatorias independientes a una distribución normal bajo ciertas
condiciones. En particular, hemos visto cómo podemos aplicar esta ley para
aproximar una distribución binomial a una normal.
CC-BY-NC-ND • PID 00253303 46 Variables aleatorias
Actividades
1. Una empresa de fabricación de microchips observa que el número de componentes electróni-
cos que fallan antes de cumplir 100 horas de funcionamiento sigue una distribución de Poisson.
De media, el número de microchips que fallan en este intervalo de tiempo es 8. Se pide:
a) Comprobad que la función de probabilidad correspondiente a la Poisson satisface la con-
dición de que la suma de todas las probabilidades de valores posibles de la variable tiene un
valor de 1, es decir, que 1 =
∑∞
k=0 P (X=k).
Pista: Recordad la serie de Taylor de la función exponencial.
b) ¿Cuál es la probabilidad de que falle exactamente un microchip al cabo de 50 horas de
funcionamiento?
c) ¿Cuál es la probabilidad de que no fallen más de dos microchips en 100 horas?
d) ¿Cuál es la probabilidad de que fallen al menos 10 microchips en 125 horas?
2. Una fuente binaria genera d́ıgitos 1 y 0 de manera aleatoria con probabilidades 0, 6 y 0, 4,
respectivamente. Se pide:
a) ¿Con cuál de las variables aleatorias vistas podŕıamos modelizar el comportamiento de
esta fuente?
b) ¿Cuál es la probabilidad de que en una secuencia de 5 d́ıgitos salgan dos 1 y tres 0?
c) ¿Cuál es la probabilidad de que en la secuencia de 5 d́ıgitos se obtengan al menos tres 1?
3. Suponed que el tiempo (en segundos) que tarda un servidor de bases de datos en dar
respuesta a una consulta SQL es una variable aleatoria exponencial con parámetro λ = 1/10.
Si el servidor recibe otra consulta SQL justo antes de la vuestra, se pide:
a) ¿Qué valores puede tomar el tiempo de espera X para poder lanzar una consulta? ¿Se
trata de una variable aleatoria discreta o continua?
b) ¿Cuál es la probabilidad de que el anterior tiempo de espera sea menos de 5 segundos?
c) ¿Cuál es la probabilidad de que el tiempo de espera esté entre 5 y 10 segundos?
4. En una red de telecomunicaciones, se ha calculado que la probabilidad de que un direccio-
nador falle en una jornada de actividad extrema es de 0,04. Si se considera un total de 2.500
jornadas de actividad extrema, entonces:
a) Sea X el número de veces que falla el direccionador. ¿De qué tipo de variable aleatoria se
trata?
b) ¿Cuál es la probabilidad de que el direccionador falle más de 120 veces en este periodo?
c) ¿Y de que falle entre 100 y 120 veces (los dos incluidos) en este periodo?
Pista: Gracias al TCL, es posible aproximar una binomial mediante una normal.
5. El número de consultas que un servidor de bases de datos procesa en un intervalo de 10
segundos es una variable aleatoria de Poisson, X, con tasa λ = 0, 5 consultas por segundo.
Se pide:
a) ¿Cuál es la probabilidad de que ninguna consulta sea procesada en un intervalo de 10
segundos?
b) ¿Cuál es la probabilidad de que al menos 2 consultas sean procesadas en un intervalo de
10 segundos?
6. Un emisor A transmite un mensaje a un receptor B. Sea p la probabilidad de que B
reciba correctamente el mensaje. Para asegurarse de que el mensaje será recibido al menos
una vez, A volverá a enviar el mensaje hasta un máximo de n intentos. Suponiendo que las
n transmisiones son independientes, se pide:
a) Identificad cuál es la distribución estad́ıstica asociada a la variable
X= número de mensajes recibidos correctamente por B en los n intentos.
b) Si p = 0,7 y n = 3, calculad la probabilidad de que B acabe recibiendo el mensaje.
c) Si p = 0,8, ¿cuál es el valor mı́nimo de n que hace que la probabilidad de que el mensaje
se reciba sea, como mı́nimo, de 0,95?
7. Suponed que la temperatura T a la que tiene que trabajar una sonda de medida durante
una misión espacial es una variable aleatoria gaussiana (distribución normal) con media 85
grados Fahrenheit y desviación estándar de 10 grados Fahrenheit.
CC-BY-NC-ND • PID 00253303 47 Variables aleatorias
a) En un momento determinado, ¿cuál es la probabilidad de que la temperatura esté entre
75 y 95 ◦F?
b) ¿Y de que esté entre 65 y 105 ◦F?
c) Buscad en internet información sobre la regla 68/95/99 y justificad que los resultados
anteriores son coherentes con esto.
d) Haced uso del teorema central del ĺımite para explicar la gráfica siguiente.
N = 10
N = 7
N = 4
N = 1
8. Una centralita telefónica recibe 300 llamadas por hora. La centralita está dimensionada de
tal manera que no se pueden establecer más de 12 conexiones por minuto. Con estos datos,
nos piden lo siguiente:
a) ¿Cuál es la probabilidad de que la centralita quede saturada en un minuto determinado?
b) ¿Cuál es la probabilidad de que se reciba una única llamada en un minuto determinado?
9. De una estación parte un tren cada 20 minutos. Si llegamos a la estación en un momento
cualquiera, nos piden determinar lo siguiente:
a) La función de distribución de la variable aleatoria ((tiempo de espera)).
b) La probabilidad de que tengamos que esperar en la estación menos de 7 minutos.
c) La esperanza, la varianza y la desviación de la variable aleatoria ((tiempo de espera)).
d) La probabilidad de que tengamos que esperar exactamente 12 minutos.
10. Un avión de alto rendimiento tiene una computadora central y dos más idénticas, pre-
paradas por si falla alguna de las otras. Durante una hora de operación, la probabilidad de
que falle la computadora principal o cualquiera de las otras es de 0,1. Suponiendo que cada
hora representa un experimento independiente del resto:
a) ¿Cuál es el tiempo medio que pasa para que fallen las tres computadoras?
b) ¿Cuál es la probabilidad de que las 3 computadoras fallen en un vuelo de 5 horas?
CC-BY-NC-ND • PID 00253303 48 Variables aleatorias
Solucionario
1.
a) Se trata de comprobar que 1 =
∑∞
k=0 P (X=k).
Teniendo en cuenta la serie de Taylor ex =
∑∞
k=0
xk
k!
:
∞∑
k=0
P (X=k) = e−α
∞∑
k=0
αk
k!
= e−α · eα = 1.
b) Sabemos que el número medio de microchips que fallan antes de cumplir 100 horas de
funcionamiento es 8. Tenemos que la tasa es λ = 8/100 = 0, 08 microchips por hora. El
número medio de microchips que fallan en un intervalo de 50 horas será α = λ · 50 = 4. La
probabilidad de que fallen k microchips en este intervalo de tiempo es: P (X=k) = α
k
k!
e−α
Sustituyendo por los valores del enunciado:
P (X=1) =
41
1!
e−4 = 0,0732.
c) En este caso, el intervalo para considerar son 100 horas, el mismo que nos dan por enun-
ciado. En este intervalo, α = 8. La probabilidad de que fallen como mucho dos microchips
es:
2∑
k=0
αk
k!
e−α =
2∑
k=0
8k
k!
e−8 =
(
80
0!
+
81
1!
+
82
2!
)
e−8 = 0,0137.
d) Considerando ahora el intervalo de 125 horas, podemos decir que de media el número de
microchips que fallan es de α = 10. La probabilidad de que fallen 10 o más microchips es
igual a 1 menos la probabilidad de que falle un número menor que 10. Es decir:
P (X ≥ 10) = 1− P (X ≤ 9) = 1−
9∑
k=0
αk
k!
e−α = 1−
(
9∑
k=0
10k
k!
)
e−10 = 0,542.
2.
a) Podemos modelizar el comportamiento de este emisor con una variable aleatoria discreta
binomial que cuente el número de 1 obtenidos, puesto que cada bit se considera una variable
aleatoria de Bernoulli y el número de experiencias será el número de bits emitidos.
b) Si denominamos X la variable aleatoria que representa el número de observaciones 1
(éxitos) que se obtienen al generar la secuencia de 5 d́ıgitos, X sigue una distribución binomial
de parámetros n = 5 y p = 0,6, es decir, X ∼ Bin(5, 0,6). Por
lo tanto, P (X = 2) =(5
2
)
0,62 · 0,43 = 0,23.
c) Ahora se pide P (X ≥ 3) = 1− P (X ≤ 2).
P (X ≤ 2) =
2∑
k=0
(5
k
)
0,6k · 0,45−k = 0,45 + 5 · 0,6 · 0,44 + 10 · 0,62 · 0,43 = 0,317.
Por lo tanto, P (X ≥ 3) = 1− 0, 317 = 0, 683.
CC-BY-NC-ND • PID 00253303 49 Variables aleatorias
3.
a) X toma cualquier valor entre 0 y ∞. Es una variable de tipo exponencial, puesto que
coincide con el tiempo de respuesta descrito en el enunciado. Por lo tanto, es continua.
b) Como hemos visto, X ∼ Exp(1/10). Por lo tanto, su función de distribución es F (x) =
1− e−x/10 para x ≥ 0.
P (X < 5) = F (5) = 1− e−1/2 = 0,393.
c) De manera análoga:
P (5 < X < 10) = F (10)− F (5) = (1− e−1)− (1− e−1/2) = e−1/2 − e−1 = 0,239.
4.
a) Si representamos porX = ((número de veces que falla el direccionador en las 2.500 jornadas)),
y entendemos por ((éxito)) el hecho de que el direccionador falle, entonces:X ∼ Bin(2.500, 0,04).
En este caso, podemos definir como A, éxito, el hecho de que el direccionador falle. Esto pasa
con una probabilidad de 0,04. El número de veces que repetimos el experimento, según el
enunciado, es de 2.500. Por lo tanto, podemos considerar que nuestra variable aleatoria sigue
una distribución binomial con parámetros n = 2.500, p = 0,04.
Con la aproximación de una binomial a una normal, podemos trabajar con la variable Y :
Y ∼ N(2.500 · 0,04,
√
2.500 · 0,04 · 0,96) = N(100, 9,798).
b) Lo que se pide es:
P (X > 120) = 1− P (X ≤ 120) = 1− P (Y < 120,5) = 0,98179− 0,47965 = 0,0182.
c) Ahora lo que se pide es:
P (100 ≤ X ≤ 120) = P (99,5 < Y < 120,5) = 1− 0,98179 = 0,502.
(En los apartados b y c se ha utilizado software matemático para calcular la función de
distribución de la variable normal Y .)
5. X es una variable de Poisson de parámetro α = λT = 0, 5 · 10 = 5.
a) La función de probabilidad de X es P (X = k) = e−α α
k
k!
y, por lo tanto, P (X = 0) =
e−5 5
0
0!
= 0, 0067.
b) Ahora nos piden P (X ≥ 2):
P (X ≥ 2) = 1−P (X ≤ 1) = 1−(P (X=0)+P (X=1)) = 1−(e−5+5e−5) = 1−6e−5 = 0, 9596.
CC-BY-NC-ND • PID 00253303 50 Variables aleatorias
6.
a) Si representamos por X la variable aleatoria que representa el número de éxitos (mensajes
recibidos) en las n pruebas, tenemos que X sigue una distribución binomial de parámetros
n y p, es decir, X ∼ Bin(n, p).
b) En este caso, n = 3 y p = 0,7, y por tanto:
P (X ≥ 1) = 1− P (X=0) = 1−
(3
0
)
0,70 · 0,33 = 1− 0,027 = 0,973.
c) Ahora n es desconocido y p = 0,8. Se pide encontrar n tal que P (X ≥ 1) ≥ 0,95:
P (X ≥ 1) = 1− P (X=0) = 1−
(n
0
)
0,80 · 0,2n = 1− 0,2n.
Planteamos la inecuación: 1− 0,2n ≥ 0,95⇒ n ≥ ln 0,05/ ln 0,2 = 1,86, es decir, tomaremos
n = 2.
7.
a) Lo que se pide es: P (75 < X < 95) = 0, 68269 ≈ 0, 68 (coherente con la regla).
b) Ahora lo que se pide es: P (65 < X < 105) = 0, 9545 ≈ 0, 95 (coherente con la regla).
c) Por ejemplo:
Figura 11
La parte en azul oscuro es
menos de una desviación
estándar desde la media.
Para una distribución normal,
esto representa el 68 % del
conjunto (azul oscuro). La
parte en azul menos oscuro
está situada hasta dos
desviaciones estándar y
representa el 95 % del
conjunto. La parte en azul
claro (hasta tres desviaciones
estándar) representa el
99,7 %.
Figura 11. Distribución de las notas obtenidas por los dos estudiantes. En el eje horizontal,
se representa el número de prueba, y en el eje vertical, la nota obtenida.
0,4
0,3
0,2
0,1
0,0
0,1%
2,1%
13,6%
34,1%
0,1%
2,1%
13,6%
34,1%
–3σ –2σ –1σ µ 3σ2σ1σ
d) La primera fila corresponde a la distribución original de la variable X. El resto de las
filas corresponde a las distribuciones de las medias muestrales para diferentes tamaños de la
muestra (n = 4, n = 7 y n = 10). Se observa que, con independencia de cómo se distribuya la
variable X, las distribuciones de las medias muestrales se van aproximando a una distribución
normal a medida que aumenta el tamaño de la muestra. Este resultado es conocido como
teorema central del ĺımite.
CC-BY-NC-ND • PID 00253303 51 Variables aleatorias
8. Para resolver este ejercicio, tendremos en cuenta que podemos modelizar la llegada de
llamadas a una centralita mediante una distribución de Poisson, X ∼ Poiss(α).
El parámetro que define la distribución, α, coincide con la esperanza de la variable, como
hemos visto en el subapartado 2.2. El enunciado nos dice que llegan 300 llamadas en una
hora. Por lo tanto, la tasa es λ = 300
60
= 5 llamadas/minuto.
a) La probabilidad de que el número de llamadas en un minuto sea mayor que 12 y de que,
por tanto, la central quede saturada, es:
P (X > 12) = 1− P (X ≤ 12) = 1− e−5
12∑
k=0
5k
k!
= 0,00202.
b) La probabilidad de que se reciba una sola llamada en un minuto es:
P (X = 1) = e−5
51
1!
= 0,0337.
9.
a) Si llegamos a la estación en cualquier momento y todos los momentos son equiprobables,
podemos asumir que la variable aleatoria ((tiempo de espera)) sigue una distribución uniforme
en el intervalo (0, 20). La función de distribución es la siguiente:
F (x) = P (X ≤ x) =

0 si ≤ 0,
x
20
si 0 ≤ x < 20,
1 si ≤ 20.
La función de densidad f(x) es 1
20
dentro del intervalo (0, 20).
b) La probabilidad de que espere menos de 7 minutos es la siguiente:
P (X < 7) = F (7) =
7
20
= 0,35.
c) La esperanza de la variable ((tiempo de espera)) es:
E(X) =
0 + 20
2
= 10.
Y la varianza es:
Var(X) =
(20− 0)2
12
=
100
3
= 33,33.
La desviación es σ =
√
33, 33 = 5,7.
CC-BY-NC-ND • PID 00253303 52 Variables aleatorias
d) La probabilidad de que el tiempo de espera sea exactamente de 12 minutos es cero, ya
que se trata de una variable aleatoria continua y, en este caso, la probabilidad de un valor
determinado es cero.
10.
a) Representamos por X el número de horas que pasa hasta que fallan los 3 sistemas. X1,
X2 y X3 son el número de horas que pasa hasta que falla el primer, segundo y tercer sistema,
respectivamente. Cada Xi es una variable geométrica de parámetro p = 0,1. Por lo tanto,
E(X1) = E(X2) = E(X3) = 1/p = 10 horas. El tiempo total es X = X1 +X2 +X3, de modo
que E(X) = 3 · 10 = 30 horas.
b) A continuación, nos piden la probabilidad de que las 3 computadoras fallen en un vuelo
de 5 horas, es decir:
P (X ≤ 5) = P (X = 3) + P (X = 4) + P (X = 5).
P (X = 3) = p3 = 0,001 ya que corresponde a X1 = X2 = X3 = 1.
P (X = 4) = 3p3(1 − p) = 0, 0027 ya que corresponde a X1 = 2, X2 = X3 = 1 o X2 = 2,
X1 = X3 = 1 o X3 = 2, X1 = X2 = 1.
P (X = 5) = 6p3(1− p)2 = 0,00486 ya que corresponde a que una valga 3 y las otras dos, 1
(3 maneras de hacerlo) o que dos valgan 2 y la otra, 1 (3 maneras de hacerlo).
Entonces
P (X ≤ 5) = p3 + 3p3(1− p) + 6p3(1− p)2 = 0,00856.
			Introducción
			Objetivos
			Concepto de variable aleatoria
			Variable aleatoria discreta
			Variables aleatorias discretas más importantes
			Variable aleatoria de Bernoulli: B(p)
			Variable aleatoria binomial: Bin(n,p)
			Variable aleatoria geométrica: Geom(p)
			Variable aleatoria de Poisson: Poiss()
			Parámetros: valor medio y varianza
			Función de distribución
			Variable aleatoria continua
			Función de distribución y función de densidad
			Variables aleatorias continuas más importantes
			Variable aleatoria uniforme: U(a,b)
			Variable aleatoria exponencial: Exp()
			Variable aleatoria normal o de Gauss: N(m,)
			Parámetros: valor medio (esperanza) y varianza
			Variables aleatorias mixtas
			Funciones de densidad condicionadas
			Delta de Dirac. Densidad en el caso discreto
			Teorema central del límite. Aplicación
			Aproximación de ley binomial a la normal
			Resumen
			Actividades
			Solucionario
modulo1.pdf
Introducción 
a la probabilidad
PID_00253302
Ana Escudero
Alícia Miralles
Alícia Vila
Tiempo mínimo de dedicación recomendado: 3 horas
Los textos e imágenes publicados en esta obra están sujetos -salvo que se indique lo contrario-
a una licencia de Reconocimiento-NoComercial-SinObraDerivada (BY-NC-ND) v.3.0 España de
Creative Commons. Podéis copiarlos, distribuirlos y transmitirlos públicamente siempre que citéis
al autor y la fuente (FUOC. Fundación para la Universitat Oberta de Catalunya), no hagáis un
uso comercial de ellos y no hagáis obra derivada. La licencia completa se puede consultar en
http: // creativecommons. org/ licenses/ by-nc-nd/ 3. 0/ es/ legalcode. es .
http://creativecommons.org/licenses/by-nc-nd/3.0/es/legalcode.es
CC-BY-NC-ND • PID 00253302 Introducción a la probabilidad
Índice
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1. Técnicas de contar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1. Muestras ordenadas con repetición.
Variaciones con repetición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2. Muestras ordenadas sin repetición. Variaciones. Permutaciones
de n elementos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3. Muestras no ordenadas sin repetición. Combinaciones . . . . . . . . . 13
1.4. Muestras no ordenadas con repetición. . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5. Otros ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2. Espacio de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1. Experiencia aleatoria y sucesos. Operaciones básicas
y propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2. Definición axiomática de probabilidad. Espacio finito
equiprobable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3. Probabilidad condicionada. Sucesos independientes . . . . . . . . . . . . 30
2.4. Teorema de la probabilidad total. Teorema de Bayes . . . . . . . . . . 33
2.5. Diagramas de árbol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Actividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Solucionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
CC-BY-NC-ND • PID 00253302 5 Introducción a la probabilidad
Introducción
Normalmente, el concepto de probabilidad lo tenemos asociado a juegos, ca-
sinos, ganar y perder, pero no solo en este ámbito se utiliza la teoŕıa de pro-
babilidad. Por ejemplo, en el estudio de las fluctuaciones que sufre el mercado
de valores, se utiliza la teoŕıa de probabilidades. En el negocio de los seguros
de coches, hay que evaluar las probabilidades de que pasen ciertos incidentes.
También dentro del marco de la ingenieŕıa de telecomunicaciones, el punto de
vista probabiĺıstico es muy importante, por ejemplo, cuando se trabaja sobre
modelos de ruido y el diseño de sistemas para minimizarlo.
Precisamente, en el campo de las telecomunicaciones estamos acostumbrados
a analizar y diseñar sistemas desde un punto de vista estático, considerando
que las señales son deterministas (ya sea en el dominio temporal o frecuencial).
Estas técnicas, sin embargo, no consideran que las señales o las respuestas de
los sistemas tengan una variabilidad causada por efectos externos no conside-
rados, o por la interferencia de señales aleatorias como el ruido. La teoŕıa de la
probabilidad y las técnicas de contar nos servirán para modelizar todos estos
fenómenos que no se pueden caracterizar con expresiones deterministas. Ima-
ginad, por ejemplo, que queremos medir el número de llamadas que llega a una
centralita telefónica o que queremos calcular cuál es el tiempo de vida de un
componente electrónico. Estos valores no son fijos y determinados, sino que los
caracterizaremos con una cierta probabilidad.
¿Cómo podemos saber si un comportamiento o medida son aleatorios o deter-
ministas? Dependerá de cómo lo podamos caracterizar. Una señal la conside-
raremos determinista cuando se puede definir uńıvocamente por una serie de
parámetros que nos permiten reconstruir la señal exactamente. Por ejemplo,
podemos caracterizar una señal sinusoidal a partir de su amplitud, frecuencia y
fase. En cambio, cuando tenemos una señal aleatoria, la caracterizaremos con
una determinada distribución que nos dará una idea de cómo se comporta la
señal, pero para cada realización de la señal aleatoria tendremos una pequeña
variabilidad de los valores que obtengamos. Por ejemplo, en el caso de la llega-
da de llamadas a una central telefónica, podemos definir cada cuánto tiempo
de media podemos esperar una llamada, pero según la hora del d́ıa en la que
hagamos las mediciones, la secuencia de llegada de llamadas no es exactamente
la misma. Lo que śı sabemos a priori es que llegará una llamada con una cierta
probabilidad.
La teoŕıa de la probabilidad nos da un conjunto de herramientas que nos per-
miten analizar y entender todos estos fenómenos asociados al comportamiento
de señales y sistemas complejos, como las comunicaciones, el procesamiento de
CC-BY-NC-ND • PID 00253302 6 Introducción a la probabilidad
señal, el cálculo de enlaces o la capacidad de los sistemas para dar un servicio
adecuado.
En este módulo, veremos algunos de los conceptos básicos en los que se fun-
damenta la teoŕıa de la probabilidad. En el apartado 1, veremos cuáles son las
técnicas de contar más habituales y para qué nos pueden ser útiles. A continua-
ción, en el apartado 2, definiremos qué es la probabilidad y veremos algunos
teoremas importantes.
CC-BY-NC-ND • PID 00253302 7 Introducción a la probabilidad
Objetivos
Los objetivos que tiene que lograr el estudiante, una vez trabajados los mate-
riales didácticos de este módulo, son:
1. Entender por qué la probabilidad es fundamental en el campo de las tele-
comunicaciones.
2. Conocer las diferentes técnicas de contar y calcular algunos de los paráme-
tros más importantes.
3. Aprender los conceptos básicos de la teoŕıa de la probabilidad y poner ejem-
plos: espacio muestral, suceso y experiencia aleatoria.
4. Aplicar la representación gráfica a los conjuntos de sucesos y espacios mues-
trales aleatorios.
5. Enunciar y estudiar la ley de Laplace.
6. Entender el concepto de probabilidad condicionada.
7. Estudiar y aplicar el teorema de Bayes.
8. Utilizar los diagramas de árbol para calcular probabilidades.
CC-BY-NC-ND • PID 00253302 9 Introducción a la probabilidad
1. Técnicas de contar
.
En muchas experiencias, el cálculo de una probabilidad está relacionado con la
cantidad de posibilidades diferentes que tiene un cierto aspecto de la experien-
cia. Por ejemplo, sabemos que al lanzar un dado perfecto la probabilidad de
que salga un 2 es 16 , puesto que hay 6 resultados posibles. Sin embargo, este es
un caso muy sencillo y a veces este recuento de resultados no es tan simple.
Pensad, por ejemplo, en una red de telecomunicaciones como internet, formada
por un conjunto de direccionadores.
Nos podemos preguntar de cuántas ma-
neras diferentes podemos interconectar dos ordenadores a través de la Red:
podemos elegir el camino más corto, o el camino menos congestionado. Tam-
bién podemos elegir un camino que está determinado por nuestro proveedor de
servicios o el camino que introduzca menos errores en la información, etc. Otro
ejemplo seŕıan los circuitos multiplexores. En este tipo de circuitos, tenemos
varias señales de entrada y una serie de señales de selección que nos dan una
determinada señal de salida. Podemos plantear cuántas combinaciones posibles
nos dan una determinada señal de salida, o si hay alguna salida que se dé con
más frecuencia.
Todas estas cuestiones las responderemos estudiando las técnicas de contar más
básicas. Esto es lo que haremos en este primer apartado del módulo. A partir
de ejemplos, iremos introduciendo los conceptos.
Nota
Observad el ejemplo 1.1 en
los tres parámetros que
debemos tener en cuenta:
• Número de elementos del
conjunto total.
• Tamaño de la muestra o
número de elementos que
tomamos en una
realización del proceso.
• Número de muestras o
número de veces que
hacemos el experimento.
Ejemplo 1.1
Empecemos pensando en un conjunto de 10 elementos: A = {0, 1, 2, . . . , 9}. Consideremos
una secuencia de 4 elementos, ordenados y con repetición, de este conjunto: muestra de
tamaño 4. Escribimos 5 muestras de ejemplo, que denominamos: m1, m2, m3, m4 y m5.
Veamos estas 5 muestras de ejemplo:
m1 = 1123, m2 = 7161, m3 = 8032, m4 = 0823, m5 = 1965.
Nos fijamos en algunos aspectos. Algunas muestras tienen elementos repetidos, como m1
y m2. Y hay muestras cuya única diferencia es el orden de los elementos, como m3 y
m4. A la hora de contar el número de muestras que podemos hacer, deberemos tener en
cuenta estos aspectos.
A continuación, veremos los tipos de muestras de elementos m que se pueden
formar en un conjunto de elementos A = {a1, a2, . . . , an}.
CC-BY-NC-ND • PID 00253302 10 Introducción a la probabilidad
.
Definición 1.1. Muestra de tamaño m, ordenada y sin repetición
(o reemplazo). Consiste en una secuencia de elementos del conjunto A
en la que no podemos repetir los elementos del conjunto A, y si tene-
mos dos muestras con los mismos elementos pero ordenados de manera
diferente, las consideramos diferentes.
Repetición y reemplazo
Las palabras repetición y
reemplazo se utilizan
indistintamente. La palabra
repetición nos dice que puede
haber elementos repetidos
dentro de una misma
muestra. También se utiliza
la palabra reemplazo porque
este hecho, a veces, está
vinculado a la manera en que
se ha hecho la experiencia.
Por ejemplo, si en una
experiencia tenemos que
sacar dos cartas de una
baraja y después de quitar la
primera carta anotamos el
resultado y la volvemos a
dejar en la baraja
(reemplazo), en la segunda
extracción podemos obtener
la misma carta que antes.
Ejemplo 1.2
En una empresa se dispone de tres ordenadores para hacer presentaciones. Se trata de
ordenadores, con caracteŕısticas diferentes, que denominamos A, B y C. Queremos elegir
dos de ellos para dos presentaciones, una del director y una del subdirector, que se harán
en lugares diferentes, simultáneamente. ¿De cuántas maneras podemos hacer la elección
de ordenadores?
Se trata de una muestra de tamaño 2, ordenada, sin repetición. Es ordenada porque el
hecho de que el director utilice A y el subdirector utilice B es diferente de que el director
utilice B y el subdirector, A. No hay repetición porque, al ser el uso simultáneo, no
pueden utilizar el mismo ordenador.
Las posibles elecciones son: AB, BA, AC, CA, BC, CB (donde, por ejemplo, el primer
ordenador corresponde al director).
.
Definición 1.2. Muestra de tamaño m, ordenada y con repe-
tición (o reemplazo). Consiste en una secuencia de elementos del
conjunto A, en la que podemos repetir los elementos del conjunto A,
y si tenemos dos muestras con los mismos elementos, pero ordenados de
manera diferente, las consideramos distintas.
Ejemplo 1.3
Continuando con el anterior ejemplo, ahora tenemos que decidir qué ordenadores se uti-
lizarán en dos presentaciones que el subdirector debe hacer el primer y el último d́ıa de
una feria de empresas.
Ahora se trata de una muestra de tamaño 2, ordenada, con repetición. Es ordenada
porque utilizar A el primer d́ıa y utilizar B el último d́ıa no es lo mismo que utilizar B
el primer d́ıa y A, el último d́ıa. Hay repetición porque, al ser d́ıas diferentes, se puede
utilizar el mismo ordenador.
Las posibles elecciones son: AA, AB, AC, BA, BC, BB, CA, CB, CC (donde, por
ejemplo, el primer ordenador corresponde al primer d́ıa).
.
Definición 1.3. Muestra de tamaño m, no ordenada y sin re-
petición (o reemplazo). Consiste en una secuencia de elementos del
conjunto A en la que no podemos repetir los elementos del conjunto A,
y si tenemos dos muestras con los mismos elementos, pero ordenados de
manera diferente, las consideramos la misma.
CC-BY-NC-ND • PID 00253302 11 Introducción a la probabilidad
Ejemplo 1.4
En la empresa de los ejemplos anteriores, se decide ampliar la memoria de dos de los
tres ordenadores disponibles. ¿De cuántas maneras se puede hacer la elección de estos
ordenadores?
Ahora se trata de una muestra de tamaño 2, no ordenada, sin repetición. Es no ordenada
porque cada ordenador puede estar o no en la muestra, pero el orden en el que lo ponemos
es irrelevante. No hay repetición porque la ampliación de memoria la hacemos a dos
ordenadores diferentes.
Las posibles elecciones son: AB, AC, BC. Para escribir las configuraciones hay que elegir
un orden, naturalmente, pero se entiende que hubiéramos podido escribir BA en lugar
de AB para indicar que la ampliación de memoria la haremos a los ordenadores A y B.
.
Definición 1.4. Muestra de tamaño m, no ordenada y con re-
petición (o reemplazo). Consiste en una secuencia de elementos del
conjunto A en la que podemos repetir los elementos del conjunto A, y
si tenemos dos muestras con los mismos elementos, pero ordenados de
manera diferente, las consideramos la misma.
Ejemplo 1.5
La empresa de los anteriores ejemplos tiene presupuesto para hacer dos ampliaciones
de memoria de 4 Gb cada una, aplicables, si se quiere, al mismo ordenador. ¿Cuántas
opciones tenemos ahora?
Ahora se trata de una muestra de tamaño 2, no ordenada, con repetición. Es no ordenada
porque cada ordenador puede estar o no en la muestra, pero el orden en que lo ponemos
es irrelevante. Hay repetición porque las dos ampliaciones de memoria se pueden aplicar
al mismo ordenador.
Las posibles elecciones son: AB, AC, BC, AA, BB, CC. Con AB, indicamos que am-
pliamos 4 Gb a A y 4 Gb a B, con AA ampliamos 8 Gb a A, etc.
Veamos cuántas muestras podemos formar de cada uno de los tipos anteriores.
1.1. Muestras ordenadas con repetición.
Variaciones con repetición
Si nos fijamos en el ejemplo 1.1, podemos pensar que para formar una mues-
tra de este tipo tenemos que llenar m = 4 posiciones. En la primera posición,
podemos poner cualquiera de los 10 elementos del conjunto A, y tenemos 10 po-
sibilidades. Una vez hemos llenado la primera posición, en la segunda posición
también podemos poner cualquiera de los 10 elementos del conjunto A, y para
cada una de estas posibilidades tenemos 10 diferentes de la primera posición.
Siguiendo este razonamiento, vemos que podemos formar 10 · 10 · 10 · 10 mues-
tras. Lo denominamos variaciones con repetición de 10 elementos tomados
de 4 en 4, VR10,4 = 10
4.
CC-BY-NC-ND • PID 00253302 12 Introducción a la probabilidad
.
En general, si partimos de un conjunto A = {a1, a2, . . . , an} con n ele-
mentos, el número de muestras de tamaño m ordenadas y con repe-
tición que se pueden formar es:
VRn,m = n
m (1)
Ejemplo 1.6
¿Cuántas palabras de tamaño 3 se pueden formar con los elementos del conjunto {0, 1}?
En un conjunto de 2 elementos, tenemos que encontrar las muestras de tamaño 3 orde-
nadas y con repetición, VR2,3 = 23 = 8.
000 001 010 100 011 101 110 111
1.2. Muestras ordenadas sin repetición. Variaciones.
Permutaciones de n elementos
Volvamos al ejemplo 1.1. A partir del conjunto A = {0, 1, . . . , 9}, queremos for-
mar muestras de tamaño 4 que no tengan elementos repetidos. Debemos llenar
m = 4 posiciones. En la primera posición, podemos poner cualquiera de los 10
elementos del conjunto A, y tenemos 10 posibilidades. Una vez hemos llenado a
la primera posición, en la segunda posición solo podemos poner 9 elementos del
conjunto A, puesto que no podemos repetir el elemento que hemos puesto en
la primera posición. Siguiendo este razonamiento, vemos que podemos formar
10 · 9 · 8 · 7 muestras. Denominamos esta cantidad variaciones de 10 elementos
tomados de 4 en 4, V10,4 = 10 · 9 · 8 · 7 = 5.040.
.
En general, si partimos del conjunto A = {a1, a2, . . . , an}, el número de
muestras de tamaño m (m ≤ n) ordenadas y sin repetición que se
pueden formar es
Vn,m = n(n− 1) · · · (n−m + 1) =
n!
(n−m)!
(2)
Factorial de un número
El factorial de n se expresa
como n! y es igual a
n(n− 1)(n− 2) · · · 2 · 1.
En el caso particular de que m = n, Vn,n = n(n− 1) · · · 1 = n!, factorial de n.
Este número nos da las maneras de ordenar n elementos. Para el caso n = 0,
se adopta el convenio 0! = 1.
CC-BY-NC-ND • PID 00253302 13 Introducción a la probabilidad
Ejemplo 1.7
Disponemos de 4 periféricos diferentes (un ratón, a; un disco duro, b; un escáner, c; y una
cámara web, d) y un ordenador que tiene 3 puertos USB diferentes (P1, P2, P3). ¿Cuántas
posibilidades tenemos de establecer las conexiones?
Sea el conjunto de los 4 periféricos, A = {a, b, c, d}. Una muestra la podemos pensar
como acb, en la cual la posición de la letra indica un puerto determinado. Por ejemplo,
si consideramos la muestra acb queremos indicar que el ratón, a, está en el puerto P1, el
escáner, c, en el puerto P2 y el disco duro, b, en el puerto P3. Si pensamos en cab, es una
muestra diferente de la anterior, puesto que ahora es el escáner, c, el que está en el puerto
P1. Tenemos que contar el número de muestras de tamaño 3, ordenadas y sin repetición,
que se pueden formar en un conjunto de 4 elementos. De este modo, V4,3 = 4 · 3 · 2 = 24.
Estas son todas las muestras:
abc acb bac bca cab cba
abd adb bad bda dab dba
acd adc cad cda dac dca
bcd bdc cbd cdb dbc dcb
1.3. Muestras no ordenadas sin repetición. Combinaciones
Nos fijamos en el ejemplo 1.7 y lo modificamos ligeramente.
Ejemplo 1.8
Tenemos que conectar periféricos a 3 puertos iguales (indistinguibles) y disponemos de 4
periféricos distintos. ¿Cuántas posibilidades tenemos?
Si nos fijamos en las muestras que hemos escrito en el ejemplo 1.7, observamos que en
este nuevo ejemplo todas las muestras que hay en una fila son la misma, puesto que lo
único que importa es el conjunto de tres periféricos que hemos elegido para conectar. Por
lo tanto, debemos dividir el número de muestras que tenemos en una fila por 3!. Tenemos,
pues,
V4,3
3!
=
24
6
= 4.
abc abd acd bcd
Denominamos combinaciones de 4 elementos tomados de 3 en 3:
C4,3 =
(4
3
)
=
V4,3
3!
= 4.
Número combinatorio
El número combinatorio
Cn,m =
(n
m
)
se lee n sobre
m y lo utilizaremos para
calcular el número de
combinaciones de
n elementos tomados de m
en m.
También se denominan
números binomiales por su
presencia en el binomio de
Newton.
.
En general, en un conjunto de n elementos, el número de muestras de
tamaño m (m ≤ n) no ordenadas y sin repetición es
Cn,m =
(
n
m
)
=
n(n− 1) · · · (n−m + 1)
m!
=
n!
m!(n−m)!
(3)
Tal y como hemos comentado, el número combinatorio
(
n
m
)
nos da el número de
subconjuntos de m elementos que podemos formar de un conjunto que tiene n.
CC-BY-NC-ND • PID 00253302 14 Introducción a la probabilidad
Propiedades de los números combinatorios
Las siguientes propiedades se pueden demostrar a partir de la definición de
(
n
m
)
,
teniendo en cuenta las propiedades del factorial: 0! = 1 y n! = n(n− 1)!. Aqúı
damos demostraciones alternativas, basadas en razonamientos combinatorios. .
1) (
n
0
)
= 1 (4)
Para probarlo, pensemos que el número de subconjuntos de 0 elementos que
tiene un conjunto de elementos n es 1, el conjunto vaćıo. Imaginad que tenemos
una bolsa con un conjunto de bolas. Solo tenemos una manera de tomar cero
elementos, y es no tomando ninguno. .
2) (
n
1
)
= n (5)
Esta igualdad es evidente, puesto que el número de subconjuntos de 1 elemento
que tiene un conjunto de n elementos es n. Si, por ejemplo, disponemos de una
bolsa en la que tenemos 10 bolas, el número de maneras de sacar una bola es
10. .
3) (
n
m
)
=
(
n
n−m
)
(6)
Para hacer la prueba, llevamos a cabo el razonamiento siguiente: podemos for-
mar el mismo número de subconjuntos de m elementos que de n−m elementos,
puesto que cada vez que contamos un subconjunto de m elementos también es-
tamos contando un subconjunto de n−m elementos, n = m+(n−m). Observad
también la fórmula que hemos utilizado para calcular el número de muestras
de tamaño m que podemos obtener de un conjunto de n elementos. En el de-
nominador tenemos la expresión m!(n − m)!, que también podemos expresar
como (n−m)!m! .
4) (
n
m
)
=
(
n− 1
m
)
+
(
n− 1
m− 1
)
(7)
CC-BY-NC-ND • PID 00253302 15 Introducción a la probabilidad
Para hacer la prueba, pensemos en un conjunto A que tiene n elementos. Si nos
fijamos en un elemento en concreto, x, podemos escribir el conjunto A como
una unión A = (A − {x}) ∪ {x}. El número de subconjuntos de m elementos
que podemos formar en A será la suma de los subconjuntos que no tienen x
más los que śı tienen x.
• El número de subconjuntos con m elementos en los que no hay x es
(
n−1
m
)
,
puesto que tomamos los elementos m del conjunto A−{x}, que tiene n− 1
elementos.
• Los subconjuntos de m elementos que tienen x los formamos añadiendo al
elemento x m−1 elementos del conjunto A−{x}, que tiene n−1 elementos,
esto es,
(
n−1
m−1
)
.
Es decir, es como si sacamos una de las bolas de la bolsa, contamos cuántas
combinaciones posibles podemos formar con las bolas restantes y después conta-
mos las combinaciones posibles del resto de las bolas con la que hemos sacado*.
* Observad que el término es
m− 1, porque una de las bolas
ya la hemos sacado previamente.
1.4. Muestras no ordenadas con repetición
Ejemplo 1.9
Tenemos 4 bolas iguales y las queremos poner en 3 cajas diferentes. ¿Cuántas posibilidades
tenemos?
Si nombramos las cajas como A, B y C, pensamos la muestra AAAA como el caso en el
que las 4 bolas se encuentran dentro de la caja A, la muestra AABB, como el caso en
el que hay dos bolas en la caja A y las otras dos en la caja B. La muestra AABB es la
misma que BABA, puesto que las bolas son iguales (indistinguibles), y por lo tanto solo
la tenemos que contar una vez. Vemos que desde este punto de vista (primer modelo),
tenemos muestras de tamaño 4 (bolas indistinguibles) con repetición y no ordenadas.
Ahora bien, para calcular la cantidad de muestras de este tipo, es mejor pensar cada una
de estas muestras desde otro punto de vista. Pensemos que tenemos que llenar 6 espacios
con 4 śımbolos del tipo • y 2 śımbolos del tipo |. La razón de que sea aśı la veremos a
continuación: nos imaginamos las tres cajas siguiendo este orden, A|B|C, y ahora, para
simplificar, solo hace falta que nos imaginemos las separaciones
entre las cajas. Cada
śımbolo | representa una separación entre dos cajas consecutivas y, por lo tanto, solo
necesitamos 2 separaciones. De las 6 posiciones que tenemos, elegimos dos para poner
las separaciones y en las otras posiciones ponemos los śımbolos •. Lo que acabamos de
explicar lo podemos ver en algunas muestras:
primer modelo
segundo modelo
llenamos 6 espacios
1 2 3 4 5 6
posiciones de las separaciones
AAAA • • • • | | {5,6}
AAAB • • • | • | {4,6}
AABC • • | • | • {3,5}
CCCC | | • • • • {1,2}
Cada muestra queda caracterizada por la posición de las dos separaciones entre las 6 que
podemos elegir. Observemos que el número de posiciones para elegir es la suma (bolas +
separaciones) = 4+(3−1) = 6. Dar dos posiciones es lo mismo que dar un subconjunto de
elementos 2 dentro de un conjunto de elementos 6. Por lo tanto, lo que estamos contando
CC-BY-NC-ND • PID 00253302 16 Introducción a la probabilidad
es el número de subconjuntos de 2 elementos que podemos formar en un conjunto de 6
elementos,
(3−1+4
2
)
=
(6
2
)
=
(6
4
)
= 15. El hecho de que
(6
2
)
=
(6
4
)
refleja que es lo mismo
empezar eligiendo la posición de las separaciones que la posición de las bolas.
AAAA BBBB CCCC AAAB AAAC BBBA
BBBC CCCA CCCB AABB AACC BBCC
AABC BBAC CCAB
.
En general, en un conjunto de n elementos, el número de muestras de
tamaño m, no ordenadas y con repetición, es:
CRn,m = Cn−1+m,m =
(
n− 1 + m
m
)
=
(
n− 1 + m
n− 1
)
(8)
Las denominamos combinaciones con repetición de n elementos to-
mados de m en m.
1.5. Otros ejemplos
Caminos en un ret́ıculo
Se quieren conectar (cablear) los puntos A y B, de forma que el camino siga
la cuadŕıcula que marca el dibujo. Solo está permitido ir a la derecha (1) y
arriba (0). En el gráfico tenéis representado uno de los caminos posibles, que
estaŕıa descrito por la secuencia 110000011110.
Figura 1
Queremos conectar los
puntos A y B. ¿De cuántas
maneras lo podemos hacer?
Figura 1. Cuadŕıcula con los caminos posibles
entre A y B
A
C
D
B
E
1) Calculad el número de caminos posibles entre A y B.
Queremos conocer el número de muestras del tipo 110000011110, en el que
debemos mantener el número de ceros. Cada 0 ocupa una posición que es
determinada por un número del conjunto A = {1, 2, . . . , 12}; aśı pues, a la
CC-BY-NC-ND • PID 00253302 17 Introducción a la probabilidad
muestra 110000011110 le hacemos corresponder el subconjunto de 6 elemen-
tos {3, 4, 5, 6, 7, 12}. El número de subconjuntos de 6 elementos que podemos
formar con los elementos de A es
(
12
6
)
= 924.
2) Calculad el número de caminos posibles entre A y B que pasan por C.
De A a C hay
(
5
2
)
posibilidades, y de C a B
(
7
4
)
posibilidades. En total,
habrá
(
5
2
)(
7
4
)
= 350.
3) Calculad el número de caminos posibles entre A y B que pasan por C y
por E.
(
5
2
)(
4
2
)(
3
2
)
= 180.
Soluciones enteras de una ecuación
Considerad todas las soluciones de la ecuación x1 +x2 +x3 +x4 = 50, en la que
x1, x2, x3, x4 toman valores enteros no negativos (xi ≥ 0). Para resolver este
problema, podemos pensar que se trata de 50 bolas que tenemos que repartir
en 4 cajas.
1) ¿Cuántas soluciones hay?
Es un problema similar al del ejemplo 1.9.
CR4,50 =
(
50 + 4− 1
4− 1
)
= 23.426.
2) ¿Cuántas soluciones hay en las que una y solo una de las incógnitas sea 0?
Una caja queda vaćıa (4 posibilidades). Ponemos una bola en cada una de las
otras tres cajas, para asegurar que no quedan vaćıas. Finalmente, repartimos
las 50− 3 bolas restantes de manera arbitraria en estas tres cajas.
4
(
(50− 3) + 3− 1
3− 1
)
= 4.704.
3) ¿Cuántas soluciones hay de forma que x1, x2, x3, x4 tomen valores pares?
Expresamos xi = 2yi y obtenemos la ecuación y1 + y2 + y3 + y4 = 50/2. Tal y
como hemos hecho en el primer apartado, se obtiene:
( 50
2 + 4− 1
4− 1
)
= 3.276.
CC-BY-NC-ND • PID 00253302 18 Introducción a la probabilidad
4) ¿Cuántas soluciones hay de forma que x1, x2, x3, x4 tomen valores impares?
Expresamos xi = 2yi+1 y obtenemos la ecuación y1 +y2 +y3 +y4 = (50−4)/2.
Tal y como hemos hecho en el primer apartado, se obtiene:
( 50−4
2 + 4− 1
4− 1
)
= 2.600.
Fichas en una cuadŕıcula
Queremos llenar la cuadŕıcula siguiente con 4 fichas diferentes.
Figura 2
Queremos llenar la cuadŕıcula
de la figura con 4 fichas
diferentes. ¿De cuántas
maneras distintas lo podemos
hacer?
Figura 2. Cuadŕıcula definida para
llenarla con 4 fichas diferentes
1
a
b
c
d
e
2 3 4 5
1) ¿De cuántas maneras lo podemos hacer si podemos poner todas las fichas
que queramos dentro de un mismo cuadro? VR25,4 = 25
4 = 390.625.
2) ¿De cuántas maneras, si cada cuadro solo puede tener como máximo una
ficha? V25,4 = 25 · 24 · 23 · 22 = 303.600
3) ¿De cuántas maneras, si cada cuadro solo puede tener como máximo una
ficha y queremos dejar una sola fila vaćıa? 5 · 20 · 15 · 10 · 5 = 75.000. (5 por la
posible fila vaćıa. 20 por la primera ficha, 15 por la segunda ficha, etc.)
CC-BY-NC-ND • PID 00253302 19 Introducción a la probabilidad
2. Espacio de probabilidad
.
En muchas situaciones tenemos interés en experimentos, procesos, etc. cuyo re-
sultado no puede ser predicho con certeza. Los juegos de azar nos dan ejemplos
de este tipo. No sabemos qué resultado sacará el dado o qué cartas han lle-
gado a un jugador. En un contexto tecnológico, encontramos también muchos
ejemplos de este tipo. No sabemos cuántos usuarios accederán a un servidor
o ignoramos el tiempo que durará un dispositivo antes de fallar. En campos
como el dimensionado de redes de comunicación o el control de calidad, depen-
demos de factores sometidos a variaciones que no podemos controlar ni predecir
exactamente.
La teoŕıa de la probabilidad nos da modelos en los que podemos cuantificar la
incertidumbre y actuar a partir de unos niveles de confianza que sabemos cal-
cular. Por ejemplo, en el ámbito industrial podemos determinar unos modos de
producción que nos aseguren que la probabilidad de estar fuera de los márgenes
aceptables sea bastante pequeña. En el terreno de las telecomunicaciones, po-
demos analizar la frecuencia de aparición de errores en la transmisión de datos
y diseñar procedimientos que reduzcan estas probabilidades de error.
El formalismo de la teoŕıa de la probabilidad conecta con la realidad a través de
la idea de experimento aleatorio. Cierto experimento produce un resultado que
no sabemos predecir. Cuando repetimos el experimento (en iguales condiciones,
por lo tanto), se observa que el resultado va variando. Además del resultado
del experimento (por ejemplo, los dos valores obtenidos al tirar dos dados), nos
fijamos en si cierto hecho se ha producido o no (por ejemplo, ¿es la suma de
los dos dados anteriores igual a 5?). Estos acontecimientos o sucesos son los
elementos centrales en la teoŕıa de la probabilidad.
Adoptamos el criterio de que una experiencia aleatoria se tiene que poder re-
petir un número indefinido de veces (un número grande, en la práctica) y acep-
tamos el hecho, verificado emṕıricamente, de que si bien no podemos predecir
en qué o en cuántas ocasiones pasará nuestro acontecimiento A en una serie N
de repeticiones del experimento, si NA es el número de veces que A ha pasado,
el número NA/N (frecuencia) se estabiliza hacia un valor constante cuando N
es muy grande. Este valor es lo que denominamos la probabilidad de A: P (A).
Por ejemplo, si lanzamos los dos dados 1.000 veces y resulta que la suma de los
dos vale 5 en 119 ocasiones, la frecuencia ha sido 119/1.000 = 0,119. La teoŕıa
de la probabilidad nos permitirá razonar cuál debeŕıa ser la probabilidad P
de que la suma de los dos dados valga 5 y la frecuencia observada, 0,119, no
tendŕıa que ser muy diferente de este número. Si obtuviésemos esta frecuencia
con un número más alto de tiradas (100.000, por ejemplo), el valor se acercaŕıa
más aún a la probabilidad P .
CC-BY-NC-ND • PID 00253302 20 Introducción a la probabilidad
Supondremos que conocemos todos los resultados posibles, y que las condicio-
nes de la experiencia aleatoria son estables. A lo largo de la historia, se han
propuesto varias definiciones matemáticas de probabilidad (motivadas princi-
palmente por los juegos de azar). Sin embargo, hasta principios del siglo xx no
se introduce el modelo probabiĺıstico de manera axiomática, y aśı se formalizan
todas las ideas anteriores.
En este apartado, veremos los conceptos básicos de la teoŕıa de las probabili-
dades y también algunos teoremas importantes.
2.1. Experiencia aleatoria y sucesos. Operaciones básicas
y propiedades
.
Definició 2.1. Supongamos que al repetir una determinada experiencia
en iguales condiciones, podemos obtener un conjunto de resultados dife-
rentes. Decimos que la experiencia es aleatoria si es imposible predecir
su resultado.
Experimentos y resultados
Podemos definir un
experimento como una acción
o conjunto de acciones que
hacemos para obtener un
resultado. Un resultado es la
realización de uno de los
valores posibles que nos
podŕıa dar el experimento.
Por ejemplo, las siguientes son experiencias aleatorias:
• Observación del tiempo que tarda un aparato nuevo en estropearse.
• Observación del tiempo de vida de un paquete en una red.
• Observación del número de peticiones que llegan a un servidor no sobrecar-
gado.
• Observación del número de saltos de un mensaje en una red de telecomuni-
caciones.
Ejemplo 2.1
Al lanzar un dado, podemos obtener un resultado cualquiera entre {1, 2, 3, 4, 5, 6}, pero
no podemos predecir cuál. Se trata de una experiencia aleatoria. El conjunto formado
por todos los resultados posibles, Ω = {1, 2, 3, 4, 5, 6}, se denomina espacio muestral.
.
Definición 2.2. Denominamos espacio muestral, Ω, al conjunto de
resultados posibles de una experiencia aleatoria.
((Pasa A))
Si A es un suceso, decimos
que ((pasa A)) cuando el
resultado del experimento es
un elemento del
subconjunto A.
.
Definición 2.3. Dado un espacio muestral, Ω, denominamos suceso
o acontecimiento, A, a cualquier subconjunto del espacio muestral,
A ⊂ Ω. Un suceso se denomina elemental cuando tiene un único ele-
mento.
CC-BY-NC-ND • PID 00253302 21 Introducción a la probabilidad
Un suceso se expresa habitualmente a través de una proposición que será cierta
o no según cuál sea el resultado del experimento (proposición lógica). Entonces,
el suceso viene dado por el subconjunto formado por los resultados que hacen
que la proposición sea cierta.
Ejemplo 2.2
Continuemos con el ejemplo del dado, el ejemplo 2.1. Definiremos algunos sucesos dando
una proposición que los describe y el subconjunto correspondiente:
Suceso A: A = {sale un número par} = {2, 4, 6}.
Suceso B: B = {sale un número mayor que 3} = {4, 5, 6}.
En este ejemplo, tenemos 6 sucesos elementales o sucesos que tienen un solo elemento:
{1}, {2}, {3}, {4}, {5} y {6}.
Ejemplo 2.3
Notación
Observad la notación.
{000, 001, 010} =
{010, 000, 001}. No importa
el orden en el que escribamos
los elementos de un conjunto.
Recibimos un mensaje binario (formado con elementos de {0, 1}), de longitud 3 (o de
tamaño 3).
• El espacio muestral Ω es el conjunto de todos los resultados posibles, es decir, todos
los mensajes posibles de 3 bits que podemos recibir. Ω = {000, 001, 010, 100, 011, 101,
110, 111}. Dado que tiene 8 elementos, decimos que el cardinal de Ω es 8 y escribimos
| Ω |= 8.
• Ahora definimos algunos sucesos: A = {000, 001, 010}, B = {mensajes con uno solo 0},
C = {011, 101}, D = {010, 100, 011, 111}.
Si os fijáis, los diferentes sucesos que definimos son subconjuntos del conjunto
de todos los resultados posibles (o espacio muestral) Ω. Ahora veremos algunos
conceptos básicos de la teoŕıa de conjuntos que nos ayudarán a la hora de
trabajar con los sucesos y asignarles probabilidades.
Conjuntos ∅ y Ω
Observad que los conjuntos
∅ y Ω son complementarios.
En general, A y Ac son
disjuntos.
.
Definición 2.4. Definimos los siguientes conceptos (A, B, . . . , son sub-
conjuntos del espacio muestral Ω, es decir, A,B, . . . ⊂ Ω):
• Ac (conjunto complementario de A) es el conjunto que tiene
por elementos todos los elementos de Ω que no son de A. Es decir,
Ac = ((no pasa A)).
• A ∪B (A unión B) es el conjunto que tiene todos los elementos de
A y también los de B.
• A ∩ B (A intersección B) es el conjunto que tiene todos los ele-
mentos de A que a la vez también son de B.
• ∅ es el conjunto vaćıo y Ω es el conjunto total.
• Decimos que dos conjuntos A y B son disjuntos cuando no tienen
ningún elemento en común, es decir, A ∩B = ∅.
CC-BY-NC-ND • PID 00253302 22 Introducción a la probabilidad
.
• Decimos que los conjuntos A1, A2, . . . , An forman una partición de
Ω cuando los conjuntos son disjuntos de dos en dos, y la unión de
todos es el conjunto total. Es decir,
Ai ∩Aj = ∅ para i 6= j y
n⋃
i=1
Ai = Ω.
Partición de un conjunto
Imaginad que el conjunto Ω
es un pastel que tenemos que
repartir entre diferentes
personas. Esto seŕıa un
ejemplo de partición, ya que
los pedazos en los que
dividimos el pastel son
disjuntos (no se superponen)
y la suma de todos los trozos
es el pastel entero (el espacio
muestral Ω).
Ejemplo 2.4
En este ejemplo representamos una partición, A1, A2, A3, A4, A5, de un conjunto Ω =
{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, con A1 = {1}, A2 = {2, 3}, A3 = {4, 5, 6}, A4 = {7, 8} y
A5 = {9, 10}. La unión de todos es el total, A1∪A2∪A3∪A4∪A5 = Ω, y la intersección
entre dos cualesquiera es vaćıa. Veamos dos representaciones de esto.
Figura 3
Ejemplo de partición de un
conjunto total, Ω.
Figura 3. Los conjuntos A1, A2, A3, A4 y A5
forman una partición del conjunto total Ω
A1
A2
A3
A4
Ω
A5
Figura 4. Distribución de los elementos del conjunto Ω en
diferentes subconjuntos o sucesos y que forman una partición
1 2
3
4 5
6
7
8
Ω
9 10
Figura 4
Distribución de los elementos
del conjunto Ω en diferentes
subconjuntos o sucesos y que
forman una partición.
Veamos las definiciones anteriores en términos probabiĺısticos. Para ilustrar
cada definición, supondremos que en el experimento de tirar un dado al aire,
el suceso A consiste en obtener un número par y el suceso B, en obtener un
número menor o igual que 3:
• El suceso contrario de A es el conjunto complementario Ac, y se lleva a
cabo cuando no lo hace A. En nuestro ejemplo del dado, Ac se da cuando
obtenemos un resultado impar. Corresponde a la negación lógica.
CC-BY-NC-ND • PID 00253302 23 Introducción a la probabilidad
• El suceso A∪B se produce si pasa A, pasa B o pasa A y B al mismo tiempo.
En el ejemplo del dado, esto ocurre si obtenemos un número par o bien un
número menor o igual que 3. Es decir, A∪B = {1, 2, 3, 4, 6}. Observad que
cuando obtenemos un 2, se dan los dos sucesos, A y B, a la vez. Corresponde
a la ((o)) lógica.
• El suceso A ∩ B se produce si pasa A y B al mismo tiempo. En nuestro
ejemplo, A ∩B = {2}. Corresponde a la ((y)) lógica.
• ∅ es el suceso imposible y Ω es el suceso seguro. Si tiramos un dado,
obtenemos un resultado entre 1 y 6 y es imposible obtener un número fuera
de este rango. Ω = {1, 2, 3, 4, 5, 6}. Es seguro que obtendremos alguno de
estos valores.
• Decimos que A y son B dos succesos incompatibles cuando no pueden
pasar
al mismo tiempo porque no tienen ningún elemento en común. Es
decir, A ∩ B = ∅. Si definimos C = {1}, A y C son disjuntos porque si
lanzamos un dado, no se pueden dar los dos sucesos a la vez.
• Decimos que A1, A2, . . . , An forman ud sistema completo de sucesos si
forman una partición. Por ejemplo, si definimos un tercer suceso D = {3, 5}:
A = {par}, C = {1} y D = {3, 5} forman un sistema completo de sucesos.
Los conceptos anteriores los hemos resumido en la tabla siguiente.
En términos de probabilidad En términos de conjuntos Notación
Suceso seguro Conjunto total Ω
Suceso imposible Conjunto vaćıo ∅
Suceso contrario Conjunto complementario Ac, también A
A y B Intersección A ∩B
A o B Unión A ∪B
Sucesos incompatibles Conjuntos disjuntos A ∩B = ∅
Sistema completo de sucesos Partición de Ω Ai ∩Aj = ∅⋃
i Ai = Ω
CC-BY-NC-ND • PID 00253302 24 Introducción a la probabilidad
Ejemplo 2.5
Considerando el espacio muestral (mensajes binarios recibidos de tamaño 3) y los sucesos
del ejemplo 2.3, podemos escribir:
Complementario de A: Ac = {011, 100, 101, 110, 111}.
A unión B: A ∪B = {000, 001, 010, 011, 101, 110}.
A unión C: A ∪ C = {000, 001, 010, 011, 101}.
A intersección C, A ∩ C = ∅.
2.2. Definición axiomática de probabilidad. Espacio finito
equiprobable
El resultado de una experiencia aleatoria no se puede prever con certidumbre.
La teoŕıa de la probabilidad da un peso a cada acontecimiento, es decir, un
número que evalúa la certeza que tenemos de que un resultado se dé.
.
Definición 2.5. Consideramos una experiencia aleatoria con espacio
muestral Ω. Una probabilidad sobre Ω es una aplicación que a cada
subconjunto A ⊂ Ω le asigna un número real, P (A), que verifica:
1) La probabilidad es un número que siempre está entre 0 y 1:
0 ≤ P (A) ≤ 1. (9)
2) La probabilidad del espacio muestral Ω es 1, puesto que este conjunto
contiene todos los resultados posibles de nuestro experimento. Toma-
mos este 1 por convenio y decimos que la probabilidad es normalizada
a 1:
P (Ω) = 1. (10)
3) Si los conjuntos A y B no tienen ningún elemento en común, la pro-
babilidad de que pase el suceso A o el suceso B es la suma de proba-
bilidades:
A ∩B = ∅ =⇒ P (A ∪B) = P (A) + P (B). (11)
Decimos que tenemos un espacio de probabilidad cuando tenemos un con-
junto Ω en el que hemos definido una probabilidad.
CC-BY-NC-ND • PID 00253302 25 Introducción a la probabilidad
De los axiomas anteriores, se deducen las siguientes propiedades:
.
Propiedades de la probabilidad:
1) P (∅) = 0. La probabilidad del suceso imposible es 0. Cuando hacemos
un experimento aleatorio, obtenemos algún resultado que pertenece al
espacio muestral Ω, y por lo tanto no se puede dar el acontecimiento ∅.
2) Dado un suceso cualquiera A, se verifica
P (Ac) = 1− P (A). (12)
3) Dados dos sucesos A y B, la probabilidad del suceso A unión B la
podemos expresar como:
P (A ∪B) = P (A) + P (B)− P (A ∩B). (13)
Observad la figura 5. Si queremos encontrar la probabilidad del conjunto
P (A∪B), tenemos que considerar la probabilidad de A, la probabilidad
de B y restar una vez la probabilidad de P (A ∩B), puesto que si no, la
estaŕıamos contando dos veces.
A continuación, demostramos las tres propiedades.
Empezamos por la segunda. A ∩ Ac = ∅. Por el axioma 3 de la probabilidad
P (A ∪Ac) = P (A) + P (Ac). Aśı:
P (A) + P (Ac) = P (A ∪Ac) = P (Ω) = 1.
Para obtener la primera, consideramos que ∅ = Ωc y aplicamos (12):
P (∅) = P (Ωc) = 1− P (Ω) = 0.
Hacemos ahora la prueba de la tercera propiedad. Ponemos el conjunto A como
unión de dos conjuntos disjuntos,
A = (A ∩B) ∪ (A ∩Bc). (14)
CC-BY-NC-ND • PID 00253302 26 Introducción a la probabilidad
Es decir, el conjunto A lo podemos reescribir como la unión de dos conjuntos:
el conjunto (A ∩ B) (en la figura 5 corresponde a la parte en gris oscuro) y
el conjunto (A ∩ Bc), que es todo el conjunto A menos la parte que tiene en
común con B (en la figura 5 corresponde a la parte en gris claro).
Figura 5
Representación gráfica del
conjunto A∪B (A unión B).
Calcularemos cuál es la
probabilidad de este suceso.
Figura 5. Representación de A ∩Bc y A ∩B
A∩Bc
BA
A∩B
Dado que tenemos una unión de dos conjuntos disjuntos (lo podemos ver en la
figura), la probabilidad es suma de probabilidades:
P (A) = P (A ∩B) + P (A ∩Bc). (15)
De manera parecida, escribimos A∪B como unión de dos conjuntos disjuntos:
A ∪B = (A ∩Bc) ∪B.
Entonces,
P (A ∪B) = P (A ∩Bc) + P (B). (16)
De las ecuaciones (15) y (16) obtenemos P (A ∪B) = P (A) + P (B)− P (A ∩B).
.
Definición 2.6. Un espacio finito equiprobable es aquel donde el
espacio muestral es un conjunto finito Ω = {a1, a2, . . . , an}, en el que
cada uno de los sucesos elementales tiene la misma probabilidad. Aśı,
P ({a1}) = P ({a2}) = · · · = P ({an}) = p,
CC-BY-NC-ND • PID 00253302 27 Introducción a la probabilidad
.
y dado que se tiene que verificar que
P ({a1}) + P ({a2}) + · · ·+ P ({an}) = np = 1,
se tiene que la probabilidad de cada suceso elemental es P ({ai}) =
1
n
.
Volvamos a la experiencia de lanzar un dado al aire. El espacio muestral Ω
está formado por Ω = {1, 2, 3, 4, 5, 6}. Por simetŕıa del dado, cada uno de los
resultados tiene la misma probabilidad de salir, y esta probabilidad es p = 1n ,
en la que n es el número de elementos del espacio muestral. En este caso, p = 16 .
Ahora ya sabemos cómo podemos calcular la probabilidad de un suceso ele-
mental en un espacio equiprobable. Vayamos un paso más allá. Ahora calcu-
laremos la probabilidad de un suceso cualquiera A del espacio equiprobable
Ω. Si A tiene k elementos x1, x2, . . . , xk decimos que su cardinal vale k y es-
cribimos |A| = k. Entonces podemos escribir A como unión de acontecimien-
tos elementales, que son disjuntos entre śı: A = ∪ki=1{xi}. Aplicando (11):
P (A) =
∑k
i=1 P ({xi}) =
∑k
i=1
1
n =
k
n . Notamos que |Ω| = n. Aśı hemos
llegado a la ley de Laplace.
.
Ley de Laplace
En un espacio equiprobable, la probabilidad de un suceso A es el cociente
entre el número de elementos de A y el número de elementos del espacio
muestral. Se acostumbra a decir
P (A) =
|A|
|Ω|
=
número de casos favorables
número de casos posibles
. (17)
Ejemplo 2.6
Consideremos la experiencia de tirar una moneda tres veces seguidas (observad que este
ejemplo es muy similar al 2.3, en el que recib́ıamos palabras de tres bits). El espacio
muestral con todos los resultados posibles es Ω = {◦ ◦ ◦, ◦ ◦ +, + ◦ ◦, ◦ + ◦, + + ◦, + ◦
+, ◦+ +, + + +}.
Si la moneda es perfecta, se trata de un espacio equiprobable, puesto que los sucesos
elementales (cara o cruz) tienen la misma probabilidad, en este caso P (◦) = P (+) = 1
2
.
Sean los sucesos siguientes:
A = {han salido exactamente dos caras} = {◦ ◦+, ◦+ ◦,+ ◦ ◦}.
B = {no ha salido ninguna cara} = {+ + +}.
C = {ha salido exactamente una cruz} = {◦ ◦+, ◦+ ◦,+ ◦ ◦}.
D = {ha salido al menos una cruz} = {◦ ◦+,+ ◦ ◦, ◦+ ◦,+ + ◦,+ ◦+, ◦+ +,+ + +}.
CC-BY-NC-ND • PID 00253302 28 Introducción a la probabilidad
Calculemos algunas probabilidades. El hecho de que el espacio sea equiprobable nos
permite aplicar la ley de Laplace. En cada caso, hay que contar el número de elementos
que tiene el conjunto (casos favorables) y dividir por 8 (casos posibles).
Probabilidad de que salgan dos caras: P (A) = 3
8
.
Probabilidad de que no salga ninguna cara: P (B) = 1
8
.
Probabilidad de que salga una cruz: P (C) = 3
8
.
Probabilidad de que al menos salga una cruz: P (D) = 7
8
.
Probabilidad de que salgan dos caras y a la vez ninguna cara (es imposible): P (A∩B) = 0.
Probabilidad de que salgan dos caras o bien, al menos, una cruz: P (A ∪ D) = P (A) +
P (D)− P (A ∩D)
= 3
8
+ 7
8
− 3
8
= 7
8
.
Probabilidad de que salgan dos caras o ninguna cara: P (A ∪ B) = P (A) + P (B) −
P (A ∩B) = 3
8
+ 1
8
− 0 = 4
8
.
Probabilidad de que no salga ninguna cara y, al menos, una cruz: P (B ∩D) = 1
8
.
Ejemplo 2.7
De una baraja francesa de 52 cartas (13 números, 4 palos), se sacan tres cartas sin
reemplazo. Definimos los siguientes sucesos:
A = ((Las tres cartas son del mismo palo)).
B1 = ((Las tres cartas tienen el mismo número)).
B2 = ((Dos cartas tienen el mismo número y la otra es diferente)).
B3 = ((Las tres cartas tienen números diferentes)).
Calculamos sus probabilidades y comprobamos que las probabilidades de B1, B2 y B3
suman 1 (tal y como debe ser, puesto que forman una partición del espacio muestral).
El número de casos posibles es
(52
3
)
= 22.100, puesto que elegimos cartas diferentes y el
orden es irrelevante.
En A, los casos favorables tienen un factor 4 por el posible palo común a las cartas y
un factor
(13
3
)
por la elección de los números dentro de los 13 de un palo dado (números
diferentes, por lo tanto). Entonces:
P (A) =
4 ·
(13
3
)(52
3
) = 1.144
22.100
= 0,0517.
En B1 hay 13 maneras de elegir el número común y, fijado este número,
(4
3
)
maneras de
elegir los palos:
P (B1) =
13 ·
(4
3
)(52
3
) = 52
22.100
= 0,00235.
En B2 hay 13 maneras de elegir el número doble. Fijado este, hay 12 maneras de elegir
el número simple. Por los palos, hay un factor
(4
2
)
por los palos de las dos cartas con el
mismo número y un factor 4 por el palo de la otra carta:
P (B2) =
13 · 12 ·
(4
3
)
· 4(52
3
) = 3.744
22.100
= 0,1694.
CC-BY-NC-ND • PID 00253302 29 Introducción a la probabilidad
En B3 hay
(13
3
)
maneras de elegir los tres números. Por los palos, hay un factor 4 para
cada número:
P (B3) =
(13
3
)
· 43(52
3
) = 18.304
22.100
= 0,8282.
Sumando las tres fracciones: P (B1) + P (B2) + P (B3) =
52+3.744+18.304
22.100
= 1.
Ejemplo 2.8
Una urna contiene 6 bolas blancas y 12 bolas negras. Se extraen 4 bolas al azar, sin
reemplazo. Calculamos las probabilidades de que salgan dos bolas blancas y dos negras:
P (((Dos blancas y dos negras))) =
(6
2
)(12
2
)(18
4
) = 11
34
= 0,3235.
puesto que elegimos bolas diferentes y no importa el orden. Maneras de elegir 4 bolas:(18
4
)
. Maneras de elegir dos bolas blancas:
(6
2
)
. Maneras de elegir dos bolas negras:
(12
2
)
.
Ahora calculamos la probabilidad de que todas sean del mismo color:
P (((Todas del mismo color))) = P (((Todas blancas))) + P (((Todas negras)))
=
(6
4
)(18
4
) + (124 )(18
4
) = 1
6
= 0,1667.
¿Cuál es el error en el siguiente razonamiento?
Los colores resultantes pueden ser NNNN , BNNN , BBNN , BBBN , BBBB, 5 posibili-
dades. Por lo tanto: P (((Dos blancas y dos negras))) = 1/5 y P (((Todas del mismo color))) =
2/5.
El error está en suponer que estas cinco configuraciones son equiprobables. Claramente,
es más probable sacar cuatro negras que sacar cuatro blancas, por ejemplo. Lo que śı es
equiprobable es sacar cuatro bolas cualesquiera del total de las 18.
Ejemplo 2.9
El PIN de acceso a una cuenta está formado por cuatro cifras decimales (es decir, PIN =
x1x2x3x4 con 0 ≤ xi ≤ 9).
Calculamos la probabilidad de acertarlo en 5.000 intentos con un generador aleatorio de
PIN.
Hay VR10,4 = 104 PIN posibles. En un intento, la probabilidad de acertarlo es p1 = 1/104.
En N = 5.000 intentos:
P (((Acertar en alguno de los N intentos))) = 1−P (((No acertar en ninguno de los N intentos)))
= 1− (1− p1)N = 1− 0,99995.000 = 0,3935.
ya que no acertar en un intento tiene probabilidad 1−p1, no acertar en dos intentos tiene
probabilidad (1− p1)2, etc.
CC-BY-NC-ND • PID 00253302 30 Introducción a la probabilidad
Calculamos la misma probabilidad si los intentos los hacemos con PIN diferentes (con
el generador aleatorio, cada PIN se generaba de manera independiente y, por lo tanto,
pod́ıa haber repeticiones).
P (((Acertar en alguno de los N intentos)))
= P (((El PIN correcto se encuentra en el conjunto de los N PIN probados)))
=
N
104
= 0,5.
¿Cómo cambian estos números si los PIN deben tener las cuatro cifras diferentes?
Lo que cambia es el número total de PIN posibles. Ahora es V10,4 = 10 · 9 · 8 · 7 = 5.040.
Aśı, p1 = 1/5.040.
La probabilidad con 5.000 intentos independientes es ahora 0, 6292. Con intentos diferen-
tes, se obtiene 0,9921.
2.3. Probabilidad condicionada. Sucesos independientes
Hablamos de probabilidad condicionada cuando ya se ha hecho la expe-
riencia y nos dan una pista sobre el resultado obtenido. Veamos un ejemplo de
ello.
Ejemplo 2.10
Consideremos el mismo espacio de probabilidad que en el ejemplo 2.6. Se lleva a cabo la
experiencia y nos dan la pista de que al menos ha salido una cruz. Es decir, sabemos que
se ha producido el acontecimiento D, ha salido alguna cruz. ¿Cuál es la probabilidad de
que hayan salido dos caras (suceso A)?
Está claro que ahora el espacio total ha quedado reducido al conjunto
{◦ ◦+, + ◦ ◦, ◦+ ◦, + + ◦, + ◦+, ◦+ +, + + +}
. Por lo tanto, ahora, la probabilidad de que hayan salido dos caras es 3
7
.
Lo escribimos como P (A|D) = 3
7
y la denominamos probabilidad de A condicionada
a D. O lo que es lo mismo, probabilidad de que pase A una vez que hemos hecho el
experimento y sabemos que ha pasado D en aquel mismo experimento.
Espacio muestral de la
probabilidad condicionada
Observad que en el caso de
las probabilidades
condicionadas, reducimos el
espacio muestral al espacio
del suceso que sabemos que
ha sucedido. Ahora, el
número de casos posibles ya
no es todo el espacio
muestral Ω, sino el conjunto
de elementos del suceso B.
A continuación, damos su definición.
.
Definición 2.7. Dados dos conjuntos A,B ⊂ Ω , con P (B) 6= 0, defini-
mos la probabilidad del conjunto A condicionada a B como:
P (A |B) = P (A ∩B)
P (B)
. (18)
CC-BY-NC-ND • PID 00253302 31 Introducción a la probabilidad
Se trata de encontrar la probabilidad de A, sabiendo que se ha producido B.
Ejemplo 2.11
Consideramos el mismo espacio de probabilidad que en el ejemplo 2.6, en el que lanzába-
mos tres veces una moneda al aire, y calculamos algunas probabilidades condiciona-
das:
• Sabiendo que ha salido al menos una cruz, probabilidad de que hayan salido dos caras.
Es decir, P (A |D) =
P (A ∩D)
P (D)
=
3
8
7
8
=
3
7
. Ya lo hab́ıamos encontrado en el ejemplo
anterior.
• Sabiendo que ha salido al menos una cruz, probabilidad de que haya salido exacta-
mente una cruz. Es decir, P (C |D) =
P (C ∩D)
P (D)
=
3/8
7/8
=
3
7
.
• Sabiendo que ha salido al menos una cruz, probabilidad de que no haya salido ninguna
cara. Es decir, P (B |D) =
P (B ∩D)
P (D)
=
1/8
7/8
=
1
7
.
• Sabiendo que ha salido una cruz, probabilidad de que hayan salido dos caras. De
hecho, los sucesos A y C son el mismo. Por lo tanto, P (A |C) = 1.
• Sabiendo que no ha salido ninguna cara, probabilidad de que hayan salido dos caras.
Es decir, P (A |B) =
P (A ∩B)
P (B)
= 0.
En algunas ocasiones, lo que conocemos es la probabilidad de un acontecimiento
condicionado a otro y la probabilidad de este otro. Entonces, a partir de (18),
se obtiene la probabilidad de que pasen los dos:
P (A ∩B) = P (A |B)P (B). (19)
Ejemplo 2.12
En la red eléctrica de un edificio, hay dos módulos (M1 y M2) de protección de sobre-
cargas que a veces se activan sin motivo (fallan). Sabemos que, en un d́ıa cualquiera, la
probabilidad de que M1 falle vale 0, 08, mientras que la probabilidad de que M2 falle vale
0, 1. También se sabe que el 72 % de las veces que M1 falla, M2 también lo hace.
Calculamos las probabilidades:
1)
Que fallen los dos módulos.
2) Si ha fallado M2, que también haya fallado M1.
3) Que falle algún módulo.
4) Que falle un único módulo.
5) Si alguno ha fallado, que sea uno solo.
Sea Fi = {Falla Mi}, i = 1, 2. Sabemos que P (F1) = 0,08, P (F2) = 0,1, P (F2 |F1) =
0,72.
1) P (F1 ∩ F2) = P (F2 |F1)P (F1) = 0,72 · 0,08 = 0,0576.
2) P (F1 |F2) = P (F1∩F2)P (F2) =
0,0576
0,1
= 0,576.
3) P (F1 ∪ F2) = P (F1) + P (F2)− P (F1 ∩ F2) = 0,08 + 0,1− 0,0575 = 0,1224.
4) P (Falla un solo módulo) = P (F1 ∪ F2)− P (F1 ∩ F2) = 0,0648.
CC-BY-NC-ND • PID 00253302 32 Introducción a la probabilidad
5) P (Falla uno |Falla alguno) = P (Falla uno∩Falla alguno)
P (Falla alguno)
=
P (Falla uno)
P (Falla alguno)
=
0,0648
0,1224
= 0,5924.
.
Definición 2.8. Sea A,B ⊂ Ω, sucesos con probabilidades no nulas. El
suceso A es independiente del suceso B, cuando la probabilidad de A
no se modifica al conocer alguna información de la realización de B. Es
decir,
P (A |B) = P (A). (20)
Queremos ver que si A es independiente del suceso B, entonces el suceso B
también es independiente de A. De las ecuaciones (20) y (18):
P (A) = P (A |B) = P (A ∩B)
P (B)
.
Entonces, pasamos P (B) multiplicando a la izquierda y obtenemos:
P (A ∩B) = P (A)P (B).
Ahora calculamos, teniendo en cuenta que A ∩B = B ∩A:
P (B |A) = P (B ∩A)
P (A)
=
P (A)P (B)
P (A)
= P (B).
Aśı, expresamos el criterio de independencia:
.
Si A y B son independientes, se verifica:
P (A ∩B) = P (A)P (B). (21)
Veamos un ejemplo numérico.
Ejemplo 2.13
Sean A y B dos sucesos de Ω, y sabemos que P (A ∪ B) = 0,52, P (A ∩ B) = 0,08 y
P (A) = 0,4. Veremos que A y B son independientes.
CC-BY-NC-ND • PID 00253302 33 Introducción a la probabilidad
Para ello, vemos si se verifica la igualdad P (A∩B) = P (A)P (B). Aplicando la propiedad
P (A ∪B) = P (A) + P (B)− P (A ∩B), tenemos
0,52 = 0,4 + P (B)− 0,08 =⇒ P (B) = 0,2.
P (A)P (B) = 0,4 · 0,2 = 0,08 = P (A ∩B).
2.4. Teorema de la probabilidad total. Teorema de Bayes Intervalos abiertos y
cerrados
Los śımbolos [ y ] se utilizan
para definir un intervalo
cerrado (el intervalo incluye
los valores de los extremos).
Los śımbolos ( y ) se utilizan
para definir intervalos
abiertos (el intervalo no
incluye los valores de los
extremos). Por ejemplo,
T1 = [10 ◦C, 20 ◦C] incluye
los extremos.
T2 = (20 ◦C, 30 ◦C] es una
temperatura a partir de
20 ◦C.
Ejemplo 2.14
Un aparato electrónico tiene que trabajar dentro del rango de temperaturas [10 ◦C, 40 ◦C].
Se ha observado que cuando la temperatura se encuentra en el intervalo T1 = [10 ◦C, 20 ◦C]
tiene un comportamiento óptimo el 75 % de las veces; cuando trabaja a temperaturas del
intervalo T2 = (20 ◦C, 30 ◦C], un 55 % de las veces; y cuando trabaja a temperaturas
dentro del rango T3 = (30 ◦C, 40 ◦C], un 45 % de las veces. También conocemos la fre-
cuencia de cada uno de estos rangos de temperatura. El 25 % de las veces, la temperatura
está dentro de T1, el 60 % dentro de T2, y el 15 %, dentro de T3. Nos preguntamos cuál
es la probabilidad de que, en un momento dado a una temperatura cualquiera dentro del
rango [10 ◦C, 40 ◦C], el aparato tenga un comportamiento óptimo.
T1, T2 y forman T3 una partición del conjunto de temperaturas posible [10 ◦C, 40 ◦C]
porque T1 ∪ T2 ∪ T3 = [10 ◦C, 40 ◦C] y T1 ∩ T2 = ∅, T1 ∩ T3 = ∅ y T2 ∩ T3 = ∅. Si
denominamos el suceso O = {Funcionamiento óptimo}, podemos escribir
O = (O ∩ T1) ∪ (O ∩ T2) ∪ (O ∩ T3)
y dado que estos conjuntos son disjuntos,
P (O) = P (O ∩ T1) + P (O ∩ T2) + P (O ∩ T3).
Sin embargo, no conocemos el valor numérico de las probabilidades de estas intersec-
ciones. A partir del enunciado, sabemos que P (O |T1) = 0,75, P (O |T2) = 0,55, y
P (O |T3) = 0,45. También conocemos P (T1) = 0,25, P (T2) = 0,60 y P (T3) = 0,15.
Podemos deducir el valor de estas probabilidades:
P (O ∩ T1) = P (O |T1)P (T1) = 0,1875.
P (O ∩ T2) = P (O |T2)P (T2) = 0,33.
P (O ∩ T3) = P (O |T3)P (T3) = 0,0675.
Aśı, P (O) = 0,1875 + 0, 33 + 0,0675 = 0,585.
En este ejemplo, hemos aplicado el teorema de la probabilidad total, que enun-
ciamos a continuación.
.
Teorema de la probabilidad total
Si A1, A2, . . . , An es un sistema completo de sucesos de Ω y B ⊂ Ω,
P (B) = P (B |A1)P (A1)+P (B |A2)P (A2)+· · ·+P (B |An)P (An). (22)
CC-BY-NC-ND • PID 00253302 34 Introducción a la probabilidad
Para demostrar (22), escribimos el suceso B como unión de partes disjuntas de
dos en dos:
B = (B ∩A1) ∪ (B ∩A2) ∪ · · · ∪ (B ∩An).
Dado que las partes son disjuntas, la probabilidad la encontramos sumando las
probabilidades:
P (B) = P (B ∩A1) + P (B ∩A2) + · · ·+ P (B ∩An)
y teniendo en cuenta la ecuación (18), P (B ∩ Ai) = P (B |Ai)P (Ai), para
i = 1, . . . , n, de donde se obtiene (22).
Ejemplo 2.15
Consideramos el mismo enunciado que en el ejemplo 2.13, y nos hacemos la pregunta
siguiente: sabiendo que el funcionamiento del aparato ha sido óptimo, ¿cuál es la proba-
bilidad de que nos encontremos en un rango de temperaturas correspondiente a T1?
Está claro que lo que nos piden es P (T1 |O), que es precisamente lo contrario de los datos
que nos dan, puesto que lo que conocemos es P (O |T1), P (O |T2) y P (O |T3).
Dado que conocemos la relación, P (T1 |O) =
P (T1 ∩O)
P (O)
, y los valores numéricos ya los
hemos obtenido en el ejemplo anterior, tenemos que P (T1 |O) =
0,1875
0,585
= 0,3205.
Acabamos de aplicar lo que se denomina teorema de Bayes. Veámoslo de manera
general.
.
Teorema de Bayes
Si A1, A2, . . . , An es un sistema completo de sucesos de Ω y B ⊂ Ω, es
válida la fórmula de Bayes:
P (Ai |B) =
P (B |Ai)P (Ai)
P (B|A1)P (A1) + P (B|A2)P (A2) + · · ·+ P (B|An)P (An)
,
(23)
para i = 1, . . . , n.
La fórmula de Bayes se obtiene de
P (B ∩Ai) = P (B |Ai)P (Ai) = P (Ai |B)P (B),
aislando P (Ai |B) = P (B |Ai)P (Ai)P (B) y sustituyendo P (B) con (22).
CC-BY-NC-ND • PID 00253302 35 Introducción a la probabilidad
Ejemplo 2.16
Hay tres empresas, A, B y C, que fabrican la misma pieza de avión en las proporciones
siguientes, respecto del total de piezas fabricadas: 40 %, 25 % y 35 %. El 10 % de piezas
que fabrica la empresa A son defectuosas, mientras que este porcentaje es del 5 % para
la empresa B, y del 1 % para C. Dentro de la producción total de las tres empresas, se
elige una pieza al azar y se observa que es defectuosa. Calculamos la probabilidad de que
haya sido fabricada por la empresa A.
Definimos los sucesos siguientes:
D = {la pieza es defectuosa}
A = {la pieza ha sido fabricada por A}
B = {la pieza ha sido fabricada por B}
C = {la pieza ha sido fabricada por C}
A, B y C forman una partición, y conocemos P (A) = 0,4, P (B) = 0,25 y P (C) = 0,35. El
enunciado también nos da los datos sobre la probabilidad de que la pieza sea defectuosa
según dónde ha sido fabricada: P (D |A) = 0,1, P (D |B) = 0,05 y P (D |C) = 0,01.
Según el teorema de la probabilidad total,
P (D) = P (D |A)P (A) + P (D |B)P (B) + P (D |C)P (C) = 0,056.
Con el teorema de Bayes, obtenemos lo que nos piden:
P (A |D) =
P (D |A)P (A)
P (D)
=
0,4 · 0,1
0,056
= 0,714.
2.5. Diagramas de árbol
A la hora de aplicar los teoremas de la probabilidad total y Bayes, nos podemos
ayudar con lo que denominamos diagramas de árbol.
Figura 6
Representación gráfica de un
diagrama de árbol, en el que
cada rama nos indica una
probabilidad.
Ejemplo 2.17
Vemos en la figura 6 la manera de representar mediante un diagrama de árbol la expe-
riencia del ejemplo 2.16.
Figura 6. Diagrama de árbol
P(C)P(D/C) = 0,35 · 0,01 = 0,0035
P(A) = 0,4
P(B) = 0,25
P(C) = 0,35
A
B
C
P(D/A) = 0,1
P(D/A) = 0,9
P(D/B) = 0,05
P(D/B) = 0,95
P(D/C) = 0,01
P(D/C) = 0,99
D
D
D
D
D
D
P(A)P(D/A) = 0,4 · 0,1 = 0,04
P(B)P(D/B) = 0,25 · 0,05 = 0,0125
P(A)P(D/A) = 0,4 · 0,9 = 0,36
P(B)P(D/B) = 0,25 · 0,95 = 0,2375
P(C)P(D/C) = 0,35 · 0,01 = 0,3465
CC-BY-NC-ND • PID 00253302 36 Introducción a la probabilidad
Algunas consideraciones sobre estos diagramas:
• Nos imaginamos, temporalmente, la experiencia, de izquierda a derecha.
• Cada uno de los caminos, desde el inicio hasta el final, representa una po-
sibilidad de la experiencia.
• A la derecha del diagrama, quedan representadas todas las posibilidades y,
por lo tanto, la suma es 1.
• Cada uno de los segmentos representa un paso de la experiencia.
• La probabilidad que indicamos en cada uno de estos segmentos está condi-
cionada a la parte del camino ya hecha.
• La suma de las probabilidades de todos los segmentos que parten de un
mismo punto es 1.
Ejemplo 2.18
Se env́ıa una palabra de tamaño 12 formada con elementos del conjunto {0, 1} (cada
uno de estos elementos es lo que se denomina bit). Una posible palabra podŕıa ser
111000111000. Sabemos que la probabilidad de que un bit, independiente de los otros, lle-
gue erróneo al receptor es de 0, 1. Enviamos una palabra y nos planteamos las cuestiones
siguientes:
1) ¿Cuál es la probabilidad de que no llegue ningún bit erróneo?
2) ¿Cuál es la probabilidad de que llegue un bit erróneo?
3) ¿Cuál es la probabilidad de que lleguen dos bits erróneos?
4) ¿Cuál es la probabilidad de que lleguen tres bits erróneos?
5) ¿Cuál es la probabilidad de que llegue, al menos, un bit erróneo?
6) ¿Cuál es la probabilidad de que llegue, como mı́nimo, un bit erróneo?
7) ¿Cuál es la probabilidad de que llegue, como máximo, un bit erróneo?
Nos podemos representar cada posibilidad como una secuencia de doce letras del conjunto
{e, n}, según si el bit llega erróneo o no. Por ejemplo:
eeeeeeeeeeee todos los bits llegan erróneos.
nneeeeeeeeee todos los bits llegan erróneos menos los dos primeros.
nennnnnnnnnn el segundo bit llega erróneo y los otros no.
enennnnnnnnn el primer y tercer bit llegan erróneos y los otros no.
Dado que la probabilidad de que un bit cualquiera llegue erróneo es 0, 1, y esta proba-
bilidad es independiente de lo que les pasa a los otros bits, la probabilidad de cada una
de las secuencias solo depende de la cantidad de e’s o n’s. Ahora podemos responder las
preguntas anteriores.
1) P (nnnnnnnnnnnn) = 0,912 = 0,2824.
2) Debemos tener en cuenta que el bit erróneo puede estar en la primera posición, o en
la segunda, . . . , o en la duodécima posición, es decir,
ennnnnnnnnnn, nennnnnnnnnn,. . . ,nnnnnnnnnnne.
Puesto que la probabilidad de cada uno de estos casos es 0,1 · 0,911,
P (llega un bit erróneo) = 12 · 0,1 · 0,911 = 0,3766.
3) Del mismo modo que hemos hecho antes, tenemos que calcular cuántas palabras se
pueden formar con dos bits erróneos, como por ejemplo:
eennnnnnnnnn, enennnnnnnnn,. . .
CC-BY-NC-ND • PID 00253302 37 Introducción a la probabilidad
El número de palabras de este tipo es
(12
2
)
. Aśı,
P (llegan dos bits erróneos) =
(12
2
)
0,12 · 0,910 = 0,2301.
4) Con un razonamiento parecido al caso anterior, obtenemos ahora
P (llegan tres bits erróneos) =
(12
3
)
0,13 · 0,99 = 0,0852.
5) Los casos que tienen al menos un bit erróneo son los que tienen un bit erróneo más
los casos que tienen dos bits erróneos, etc. Es decir, son todos los casos menos el caso
en el que no hay ningún bit erróneo. Dado que la probabilidad de todos los casos es 1,
tenemos: P (llega al menos un bit erróneo) = 1− 0,912 = 0,7176.
6) Nos piden lo mismo que en el caso anterior; aśı,
P (llega como mı́nimo un bit erróneo) = 1− 0,912 = 0,7176.
7) Aqúı solo tenemos que contar los casos que no tienen ningún bit erróneo más los casos
en los que hay un bit erróneo,
P (llega como máximo un bit erróneo) = 0,912 + 12 · 0,1 · 0,911 = 0,659.
CC-BY-NC-ND • PID 00253302 38 Introducción a la probabilidad
Resumen
En el primer apartado de este módulo, hemos visto que dado un conjunto de
elementos n, los podemos agrupar de diferentes maneras. Hemos definido los
casos siguientes:
• Tomamos m elementos y consideramos que se pueden repetir y que tienen
que estar ordenados (las muestras con orden diferente en sus elementos las
consideramos distintas). Esto es lo que hemos denominado variaciones con
repetición, y hemos visto que podemos formar un total de VRn,m = n
m
muestras diferentes.
• Tomamos m elementos y consideramos que no se pueden repetir y que
deben estar ordenados (las muestras con orden diferente en sus elemen-
tos las consideramos distintas). Esto es lo que hemos denominado varia-
ciones o permutaciones. Podemos formar un total de muestras Vn,m =
n(n− 1) · · · (n−m + 1) diferentes.
• Tomamos m elementos y consideramos que no se pueden repetir y que los
elementos que forman la muestra no tienen que estar ordenados (las mues-
tras con orden diferente en sus elementos consideramos que son la misma
muestra). Esto es lo que hemos denominado combinaciones. Podemos for-
mar un total de combinaciones Cn,m =
(
n
m
)
= n·(n−1)···(n−m+1)m! =
n!
m!(n−m)!
diferentes.
• Finalmente, podemos tomar m elementos y considerar que se pueden repetir
y que los elementos que forman la muestra no tienen que estar ordenados
(las muestras con orden diferente en sus elementos consideramos que son la
misma muestra). El número de combinaciones posibles que podemos formar
de este tipo es CRn,m = Cn−1+m,m =
(
n−1+m
m
)
=
(
n−1+m
n−1
)
.
A continuación, podéis ver un cuadro resumen del apartado de combinatoria.
Con repetición Sin repetición
Importa el orden Variaciones con repetición: Variaciones. Permutaciones de n elementos:
VRn,m = nm Vn,m = n(n− 1)(n− 2) · · · (n−m + 1)
No importa el orden Combinaciones con repetición: Combinaciones:
CRn,m =
(n−1+m
n−1
)
Cn,m =
(n
m
)
= n!
m!(n−m)!
CC-BY-NC-ND • PID 00253302 39 Introducción a la probabilidad
Estas técnicas de contar nos ayudarán a resolver algunos problemas básicos en
los que aplicamos la teoŕıa de la probabilidad.
En el apartado 2 de este módulo, hemos visto que una experiencia aleatoria
se da cuando no podemos predecir el resultado. Toda experiencia aleatoria tiene
un conjunto de resultados posibles, que es lo que hemos denominado espacio
muestral Ω.
Podemos definir un suceso o acontecimiento tomando un subconjunto del
espacio muestral Ω. Por ejemplo, cuando lanzamos un dado podemos definir el
suceso A como ((obtener un resultado parejo)). Podemos definir tantos sucesos
como queramos, y cada suceso tendrá asociada una probabilidad de ocurrir
o no. También podemos relacionar diferentes sucesos. De esta manera, hemos
definido la noción de suceso (o conjunto) complementario, suceso (o
conjunto) unión y suceso (o conjunto) intersección. Diferentes sucesos
forman una partición cuando su unión nos da el conjunto total Ω y no tienen
ningún elemento en común entre ellos.
Algunas relaciones importantes en cuanto a las probabilidades son las siguien-
tes:
P (Ac) = 1− P (A),
P (A ∪B) = P (A) + P (B)− P (A ∩B).
Una noción importante vista en este apartado es la de espacio equiprobable,
que se da cuando todos los resultados posibles de un experimento tienen la
misma probabilidad de suceder. En estas condiciones, podemos aplicar la ley
de Laplace para calcular probabilidades. En un espacio equiprobable,
P (A) =
número de casos favorables
número de casos posibles
.
También hemos visto la noción de probabilidad condicionada, mediante la
cual podemos calcular la probabilidad de un suceso sabiendo que se ha produ-
cido otro suceso determinado. Cuando los acontecimientos pasados no nos dan
ninguna pista sobre un suceso concreto,
hablamos de sucesos independien-
tes. En estos casos:
P (A ∩B) = P (A)P (B).
El teorema de la probabilidad total y el teorema de Bayes nos dan
herramientas para manejar probabilidades condicionadas. Si A1, A2, . . . , An es
un sistema completo de sucesos, entonces:
CC-BY-NC-ND • PID 00253302 40 Introducción a la probabilidad
P (B) = P (B |A1)P (A1) + P (B |A2)P (A2) + ... + P (B |An)P (An),
P (Ai |B) =
P (B |Ai)P (Ai)
P (B |A1)P (A1) + P (B |A2)P (A2) + · · ·+ P (B |An)P (An)
.
Finalmente, hemos visto una manera gráfica de trabajar con probabilidades,
los diagramas de árbol.
CC-BY-NC-ND • PID 00253302 41 Introducción a la probabilidad
Actividades
1. Mediante un generador de bits (0 y 1) aleatorio, generamos mensajes de 4 bits. Se pide lo
siguiente:
a) Escribid el espacio muestral. ¿Cuántos elementos tiene?
b) Definid el suceso A = {hay un solo 0 en el mensaje generado}.
c) Definid el suceso B = {hay al menos tres 1 en el mensaje generado}.
d) Definid el conjunto unión de los conjuntos A y B.
e) Definid el conjunto intersección de los conjuntos A y B.
2. En una bolsa tenemos tres bolas: una roja, una azul y una amarilla. Elegimos dos bolas
al azar. Una vez elegida la primera, la retornamos a la bolsa, de forma que para elegir la
segunda volvemos a tener las tres bolas dentro.
a) ¿Cuál es la probabilidad de obtener las dos veces la bola roja?
b) ¿Cuál es la probabilidad de obtener al menos una vez la bola azul?
3. En un control de calidad, consideramos que un dispositivo electrónico funciona correcta-
mente si pasa alguna de las dos pruebas que se efectúan en todos los dispositivos. Sabemos
que el 80 % de los dispositivos comprobados obtienen esta validación. El primer test lo pasan
el 60 % de los dispositivos y el segundo test, el 50 % de los dispositivos. ¿Cuál habŕıa sido
el porcentaje de dispositivos validados si hubiéramos exigido que un dispositivo funciona
correctamente si supera los dos tests?
4. La probabilidad de que un modelo de direccionador determinado falle es del 4 %. Dispo-
nemos de un sistema de monitorización que detecta correctamente el 95 % de los casos en
los que un direccionador falla, pero en un 2 % de los casos recibimos falsas alarmas (por
congestión de la red, por ejemplo). Si nos llega una alarma, ¿cuál es la probabilidad de que
se trate de una cáıda de un direccionador?
5. Una ĺınea de ferrocarril tiene 25 estaciones. ¿Qué número de billetes diferentes deberemos
imprimir si cada billete lleva imprimidas la estación de origen y la estación de destino?
6. Un fabricante produce PC en dos fábricas diferentes. El 50 % de los PC se producen en la
fábrica A, y sabemos que el 15 % de los PC que se producen en A son defectuosos. También
sabemos que el 5 % de los PC que se producen en B son defectuosos.
¿Cuál es la probabilidad de adquirir un PC defectuoso? Si adquirimos un ordenador que
resulta defectuoso, ¿cuál es la probabilidad de que provenga de la fábrica B? Comparad con
la probabilidad a priori.
7. En una zona geográfica determinada, encontramos cobertura de dos compañ́ıas de telefońıa
móvil. A partir de diferentes estudios hechos a los usuarios, se ha obtenido la información
siguiente:
• El 60 % de los usuarios están abonados a la compañ́ıa A.
• El 40 % de los usuarios están abonados a la compañ́ıa B.
• El 70 % de los usuarios disponen de un teléfono modelo M1.
• La probabilidad de corte de la llamada, P (T ), es de 0,1 para los usuarios de la compañ́ıa A,
de 0,15 para los usuarios de la compañ́ıa B y de 0,05 para los usuarios que utilizan el
modelo M1.
Nos piden lo siguiente:
1) Determinar si los sucesos A y B forman una partición del espacio muestral de usuarios
de telefońıa móvil.
2) Calcular la probabilidad de corte de una llamada.
3) Sabemos que a un usuario se le ha cortado una llamada; ¿cuál es la probabilidad de que
tenga un teléfono de la marca M1?
4) Si sabemos que un usuario no tiene un teléfono de la marca M1, ¿cuál es la probabilidad
de que tenga un corte en una llamada?
CC-BY-NC-ND • PID 00253302 42 Introducción a la probabilidad
Solucionario
1.
a) El espacio muestral, Ω, de nuestra experiencia aleatoria está formado por todos los sucesos
posibles. Observad que en este experimento estamos considerando muestras de 4 elementos,
ordenados y con repetición. Como hemos visto en el subapartado 1.1, lo hemos denominado
variaciones con repetición. En este caso, consideramos 2 elementos (los bits 0 y 1) tomados
de 4 en 4, VR2,4 = 24 = 16. Los elementos del conjunto Ω son los siguientes:
Ω = {0000, 1000, 0100, 0010, 0001, 1100, 1010, 1001,
0110, 0101, 0011, 1110, 1101, 1011, 0111, 1111}.
b) A continuación, nos piden que identifiquemos el suceso ((hay un solo 0 en el mensaje
generado)). Vamos al espacio muestral que hemos definido en el apartado anterior, y tomamos
aquellos elementos en los que se da esta condición:
A = {1110, 1101, 1011, 0111}.
Observad que A es un subconjunto del espacio muestral Ω.
c) Para definir el suceso ((hay al menos tres 1 en el mensaje generado)), como hemos hecho en
el apartado anterior, nos fijamos en los elementos del espacio Ω que cumplen esta condición:
B = {1110, 1101, 1011, 0111, 1111}.
d) El conjunto unión de A y B está formado por los elementos que cumplen indistintamente
las condiciones ((hay un único 0 en el mensaje generado)) o ((hay al menos tres 1 en el mensaje
generado)). Observad que, en este caso, los cuatro elementos de A también pertenecen a B.
Por lo tanto, la unión de los dos subconjuntos es B:
A ∪B = B = {1110, 1101, 1011, 0111, 1111}.
e) El conjunto intersección de A y B está formado por los elementos que cumplen simultánea-
mente las dos condiciones. Es decir, para los elementos que estén en los dos subconjuntos.
En este caso:
A ∩B = A = {1110, 1101, 1011, 0111}.
2.
a) Con i = 1, 2, denotamos
Vi = {Bola roja en la extracción i-ésima}, Bi = {Bola blanca en la extracción i-ésima}.
Para obtener dos veces la bola roja, se tiene que dar el suceso V1 ∩ V2. Dado que las tres
bolas tienen la misma probabilidad de salir, es decir, son equiprobables, podemos aplicar la
ley de Laplace, de forma que dividimos casos favorables (que salga la bola roja) entre casos
posibles (podemos obtener cualquiera de las tres bolas). Por lo tanto, P (V1) =
1
3
. Puesto
que una vez que hacemos la primera extracción retornamos la bola al saco, para la segunda
extracción partimos de las mismas condiciones. Por lo tanto, P (V2) =
1
3
. Los sucesos son
independientes, ya que el primer resultado no nos da ninguna pista de cómo será el segundo
resultado; por lo tanto, la probabilidad de la intersección es el producto de probabilidades:
P (V1 ∩ V2) = P (V1)P (V2) =
1
3
·
1
3
=
1
9
.
CC-BY-NC-ND • PID 00253302 43 Introducción a la probabilidad
b) El suceso ((obtener al menos una vez la bola azul)) se da cuando la obtenemos la primera
vez, o bien la segunda, o bien las dos veces. Deberemos calcular, pues, la probabilidad de
la unión de estos sucesos. Tenemos que procurar no contar dos veces la probabilidad de la
intersección de los conjuntos; por lo tanto:
P (B1 ∪B2) = P (B1) + P (B2)− P (B1 ∩B2) =
1
3
+
1
3
−
1
9
=
5
9
.
3. Definimos el suceso T1 como ((pasar el primer test)), y el suceso T2 como ((pasar el segundo
test)). Por el enunciado, sabemos lo siguiente: P (T1 ∪ T2) = 0,8. También tenemos las proba-
bilidades de pasar cada test: P (T1) = 0,6 y P (T2) = 0,5. Nos piden la probabilidad de pasar
el primer y el segundo test, es decir, la probabilidad P (T1∩T2). Sabemos que la probabilidad
de la unión es:
P (T1 ∪ T2) = P (T1) + P (T2)− P (T1 ∩ T2).
Aislando el término que estamos buscando:
P (T1 ∩ T2) = P (T1) + P (T2)− P (T1 ∪ T2) = 0,6 + 0,5− 0,8
= 0,3.
Si hubiéramos exigido pasar las dos pruebas, solo el 30 % de los dispositivos electrónicos se
habŕıan validado.
4. Denominamos el suceso C = {cáıda de un direccionador} y el suceso A = {recibir alarma}.
Por el enunciado, sabemos lo siguiente: P (C) = 0,04. También sabemos que P (A |C) = 0,95
y P (A |Cc) = 0,2. Aplicamos el teorema de Bayes para calcular la probabilidad de que se dé
una cáıda de direccionador, sabiendo que hemos recibido una alarma:
P (C |A) =
P (A |C)P (C)
P (A |C)P (C) + P (A |Cc)P (Cc)
=
0,95 · 0,04
0,95 · 0,04 + 0,02 · 0,96
= 0,664.
5. Sabemos, por un lado, que las estaciones de origen y de destino no se pueden repetir.
También sabemos que dadas dos estaciones, tenemos que diferenciar cuál es el origen y cuál
el destino. Por lo tanto, el número de billetes diferentes para imprimir lo podemos calcular
como el número de variaciones sin repetición de 25 elementos tomados de 2 en 2. Es decir:
V25,2 = 25 · 24 = 600.
6. Una manera de resolver este problema es haciendo el diagrama de árbol correspondiente,
como podéis ver en la figura 7.
Figura 7. Diagrama de árbol para el problema 6
P(No Defectuoso B) = 0,5 · 0,95 = 0,475
0,5
0,5
A
B
0,15
0,85
0,05
0,95
P(Defectuoso A) = 0,5 · 0,15 = 0,075
P(No Defectuoso A) = 0,5 · 0,85 = 0,425
P(Defectuoso B) = 0,5 · 0,05 = 0,025
CC-BY-NC-ND • PID 00253302 44 Introducción a la probabilidad
A y B denotan las dos fábricas. D es el suceso ((adquirir un ordenador defectuoso)). Como se
ve en el diagrama: P (A) = P (B) = 0,5, P (D |A) = 0,15, P (D |B) = 0,05.
La probabilidad de adquirir uno defectuoso es:
P (D) = P (D |A)P (A) + P (D |B)P (B) = 0,5 · 0,15 + 0,5 · 0,05 = 0,1.
La probabilidad de que un ordenador defectuoso provenga de B es:
P (B |D) =
P (D |B)P (B)
P (D)
=
0,5 · 0,05
0,1
= 0,25.
A priori, P (B) = 0,5. La probabilidad ha disminuido, puesto que el hecho de que sea defec-
tuoso decanta la probabilidad en favor de A, donde es más probable que un ordenador salga
defectuoso.
7. El enunciado nos da las probabilidades siguientes:
• P (A) = 0,6, P (B) = 0,4.
• P (M1) = 0,7.
• P (T |A) = 0,1.
• P (T |B) = 0,15.
• P (T |M1) = 0,05.
1) Con los datos del enunciado, podemos decir que los sucesos A y B (pertenecer a una
compañ́ıa telefónica o a la otra) forman una partición del espacio muestral, puesto que son
disjuntos y su unión nos da el total de usuarios de telefońıa.
2) La probabilidad de corte en una llamada es la siguiente:
P (T ) = P (T |A)P (A) + P (T |B)P (B) = 0,1 · 0,6 + 0,15 · 0,4 = 0,12.
3) A continuación, calculamos la probabilidad de que un usuario a quien se le ha cortado la
comunicación tenga un teléfono de la marca M1:
P (M1 |T ) =
P (T |M1)P (M1)
P (T )
=
0,05 · 0,7
0,12
= 0,2917.
4) Sabiendo que un usuario no tiene un teléfono de la marca M1, la probabilidad de corte de
llamada es la siguiente:
P (T |Mc1 ) =
P (Mc1 |T )P (T )
P (Mc1 )
=
(1− 0,2917) · 0,12
0,3
= 0,2833.
			Introducción
			Objetivos
			Técnicas de contar
			Muestras ordenadas con repetición. Variaciones con repetición
			Muestras ordenadas sin repetición. Variaciones. Permutaciones de n elementos
			Muestras no ordenadas sin repetición. Combinaciones
			Muestras no ordenadas con repetición
			Otros ejemplos
			Espacio de probabilidad
			Experiencia aleatoria y sucesos. Operaciones básicas y propiedades
			Definición axiomática de probabilidad. Espacio finito equiprobable
			Probabilidad condicionada. Sucesos independientes
			Teorema de la probabilidad total. Teorema de Bayes
			Diagramas de árbol
			Resumen
			Actividades
			Solucionario
Modulo3.pdf
Funciones de 
variables aleatorias
PID_00253299
Ana Escudero
Alícia Miralles
Alícia Vila
Tiempo mínimo de dedicación recomendado: 2 horas
Los textos e imágenes publicados en esta obra están sujetos -salvo que se indique lo contrario-
a una licencia de Reconocimiento-NoComercial-SinObraDerivada (BY-NC-ND) v.3.0 España de
Creative Commons. Podéis copiarlos, distribuirlos y transmitirlos públicamente siempre que citéis
al autor y la fuente (FUOC. Fundación para la Universitat Oberta de Catalunya), no hagáis un
uso comercial de ellos y no hagáis obra derivada. La licencia completa se puede consultar en
http: // creativecommons. org/ licenses/ by-nc-nd/ 3. 0/ es/ legalcode. es .
http://creativecommons.org/licenses/by-nc-nd/3.0/es/legalcode.es
CC-BY-NC-ND • PID 00253299 Funciones de variables aleatorias
Índice
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1. Función de una variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . 7
2. Función de una variable aleatoria continua . . . . . . . . . . . . . . . . . . . 8
2.1. Función de densidad de Y = g(X) cuando g(x)
es estrictamente creciente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2. Función de densidad de Y = g(X) cuando g(x)
es estrictamente decreciente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3. Función de densidad de Y = g(X) cuando g(x)
no es monótona . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4. Ejemplos aplicados a las comunicaciones: el rectificador
de media onda y el convertidor de analógico a digital . . . . . . . . . . 14
3. Teorema de la esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Actividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Solucionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
CC-BY-NC-ND • PID 00253299 5 Funciones de variables aleatorias
Introducción
En los módulos ((Introducción a la probabilidad)) y ((Variables aleatorias)), he-
mos visto las bases de la teoŕıa de la probabilidad y hemos estudiado las distri-
buciones de variables aleatorias discretas y continuas más importantes. A partir
de esto, nos podemos plantear la pregunta siguiente: ¿qué sucede si modificamos
una variable aleatoria X? Imaginad que tenemos un circuito electrónico y que
introducimos la variable X como señal de entrada. ¿Qué resultado obtendremos
a la salida? ¿Será también una variable aleatoria? ¿Y con qué caracteŕısticas?
Esto dependerá, en cada caso, de las modificaciones que aplicamos sobre X.
Por ejemplo, si hacemos pasar una señal, X, a través de un rectificador de
onda, como veremos más adelante, podemos obtener a la salida una señal, Y ,
con una distribución diferente de X.
En este módulo, hablaremos de una variable aleatoria Y que es función de
otra, X, y escribiremos Y = g(X). Este aspecto ya se trata de paso en el
módulo ((Variables aleatorias)). En los subapartados 2.2 y 3.3 de aquel módulo,
se ve que para calcular la varianza de una variable aleatoria hay que calcular
la esperanza de la variable aleatoria (X − E(X))2. En este caso, diŕıamos que
Y = g(X) = (X − E(X))2.
En este módulo, trataremos algunos casos sencillos. Empezaremos viendo, en
el apartado 1, cómo podemos aplicar una función sobre una variable aleato-
ria discreta. En el apartado 2, aplicaremos funciones sobre variables aleatorias
continuas. Veremos algunos ejemplos muy concretos de funciones. En el apar-
tado 3, enunciaremos el teorema de la esperanza y veremos cómo
lo podemos
aplicar.
CC-BY-NC-ND • PID 00253299 6 Funciones de variables aleatorias
Objetivos
Los objetivos que tiene que lograr el estudiante una vez trabajados los mate-
riales didácticos de este módulo son:
1. Entender el concepto de función de una variable aleatoria discreta y poner
ejemplos.
2. Calcular la función de probabilidad de una variable aleatoria discreta, trans-
formada mediante una función a partir de la función de probabilidad de la
variable aleatoria original.
3. Entender el concepto de función de una variable aleatoria continua y poner
ejemplos.
4. Calcular la función de distribución y la función de densidad de una varia-
ble aleatoria continua transformada mediante una función, a partir de las
funciones de distribución y densidad de la variable aleatoria original.
5. Estudiar tres casos particulares de función sobre una variable aleatoria con-
tinua y saber en qué casos se puede aplicar.
6. Comprender el sentido del teorema de la esperanza y sus aplicaciones.
CC-BY-NC-ND • PID 00253299 7 Funciones de variables aleatorias
1. Función de una variable aleatoria discreta
.
Supongamos que X es una variable aleatoria discreta con valores dentro del
conjunto ΩX = {a1, a2, a3, . . . , an}. El conjunto ΩX puede tener un número
finito de elementos o una cantidad infinita numerable de elementos. Sea Y
una nueva variable aleatoria discreta definida por una función Y = g(X). Nos
interesa encontrar la distribución de probabilidades de Y . Supongamos que
Y toma valores dentro del conjunto ΩY = {b1, b2, b3, . . . , bm}. Para encontrar
la probabilidad de cada uno de estos valores, bj , tenemos que encontrar la
probabilidad del subconjunto de valores de ΩX , que tienen por imagen bj . Es
decir, P (Y = bj) = P (g(X) = bj) y el suceso g(X) = bj estará formado por los
elementos ai tales que g(ai) = bj . Lo escribimos de la manera siguiente.
Observación
En el caso de variables
aleatorias discretas, podemos
trabajar directamente con la
función de probabilidad.
.
Transformación de la función de probabilidad
P (Y =bj) =
∑
ai
(g(ai)=bj)
P (X=ai). (1)
Veamos un ejemplo de ello.
Distribución binomial
Recordad que la distribución
binomial que se estudia en el
subapartado 2.1.2 del módulo
((Variables aleatorias)),
Bin(n, p), se caracteriza por
el número de experimentos
que se llevan a cabo; en este
caso, generamos un mensaje
de 3 bits, y por la
probabilidad de éxito, que
aqúı consiste en que salga un
cero y es 1
2
.
Ejemplo 1.1
Sea X la variable aleatoria discreta que cuenta el número de ceros en un mensaje de
tamaño 3 formado por los bits 0 y 1 (elementos del conjunto {0, 1}). X puede tomar los
valores {0, 1, 2, 3}, puesto que este es el número de ceros que podemos contabilizar en
el mensaje. Si la probabilidad de que haya un cero en una posición determinada es 1
2
,
X ∼ Bin(3, 1
2
). Ahora definimos una función g sobre la variable X, Y = g(X) como:
g(x) =
 2 si x ≤ 0,
3 de otro modo.
Según hemos definido g(x), Y puede tomar los valores {2, 3}. Calcular la distribución de
probabilidad de la variable Y es dar todas sus probabilidades. Aśı,
P (Y =2) = P (X=0) =
(3
0
) 1
23
=
1
8
.
Probabilidades en una
distribución binomial
Recordad del subapartado
2.1.2 del módulo ((Variables
aleatorias)) que P (X=k) =(n
k
)
pk(1− p)n−k con
k ∈ {0, 1, 2, . . . , n}.
P (Y =3) = P (X=1)+P (X=2)+P (X=3) =
(3
1
) 1
23
+
(3
2
) 1
23
+
(3
3
) 1
23
=
3 + 3 + 1
8
=
7
8
.
La suma de las probabilidades P (Y =2) +P (Y =3) es igual a 1, puesto que g(X) incluye
todos los valores posibles de X y sabemos que la suma de
∑
i P (X=ai) es igual a 1.
CC-BY-NC-ND • PID 00253299 8 Funciones de variables aleatorias
2. Función de una variable aleatoria continua
.
Funciones de distribución y
de densidad
En el subapartado 3.1 del
módulo ((Variables aleatorias))
vimos que para las variables
aleatorias continuas,
pod́ıamos definir la función
de distribución, FX(x), y la
función de densidad, fX(x).
La relación entre estas es:
fX(x) =
dFX (x)
dx
∀x ∈ R.
Supongamos que X es una variable aleatoria continua con función de densidad
conocida fX(x). Definimos una nueva variable aleatoria Y = g(X), y lo que
querŕıamos es encontrar la función de distribución de Y .
.
Según la definición de función de distribución de Y ,
FY (y) = P (Y ≤ y) = P (g(X) ≤ y). (2)
Observación
En el caso de variables
aleatorias continuas,
trabajamos con la función de
distribución.
La ecuación anterior nos dice que para cada valor de y, tenemos que encontrar la
probabilidad de todos los valores de X que satisfacen g(X) ≤ y. Por lo tanto,
previamente, hay que determinar cuáles son los valores de X que satisfacen
g(X) ≤ y. Veamos un ejemplo.
Ejemplo 2.1
Si X sigue una distribución uniforme en el intervalo (8, 10), vimos que sus funciones de
densidad y de distribución son:
Véase también
En el subapartado 3.2.1 del
módulo ((Variables aleatorias))
podéis encontrar la definición
de distribución uniforme,
X ∼ U(a, b).
f(x) =

1
10−8 =
1
2
si x ∈ (8, 10),
0 de otro modo,
FX(x) =

0 si x < 8,
1
2
(x− 8) si 8 ≤ x < 10,
1 si x ≥ 10.
Definimos la nueva variable Y = g(X) = 8/X y queremos encontrar qué función de
distribución sigue, es decir, queremos encontrar FY (y):
FY (y) = P (Y ≤ y) = P
(
8
X
≤ y
)
= P
(
X ≥
8
y
)
,
puesto que X e Y son positivas.
La función de distribución de una variable aleatoria se define como FX(x) = P (X ≤ x).
Por lo tanto, para poder escribir FY (y) en función de FX(x), haremos el cambio siguiente:
P
(
X ≥
8
y
)
= 1− P
(
X <
8
y
)
.
CC-BY-NC-ND • PID 00253299 9 Funciones de variables aleatorias
Observación
En el caso de variable
aleatorias continuas,
FX(x) = P (X ≤ x) =
P (X < x) ya que
∀x, P (X=x) = 0.
Recordad que si la probabilidad de un suceso es p, la de su complementario es 1 − p.
Continuamos, pues, con los cálculos:
FY (y) = 1− P
(
X <
8
y
)
= 1− FX
(
8
y
)
= 1−
1
2
(
8
y
− 8
)
= 5−
4
y
.
Las igualdades anteriores son válidas cuando X se encuentra entre 8 y 10. Puesto que
y = 8
x
, los cálculos son válidos en el intervalo 8
10
< y < 8
8
, es decir, 0,8 < y < 1.
Figura 1
En esta figura, podéis ver
cuál es la transformación que
hemos aplicado a la variable
aleatoria X.
Figura 1. Función y = g(x) = 8
x
g(x)
1
0,8
8 10
x
X > 8/Y
y = 
8
x
x = 
8
y
La función de distribución es:
FY (y) =

0 si y < 0,8,
5− 4
y
si 0,8 ≤ y < 1,
1 si y ≥ 1.
La función de densidad de Y la encontramos derivando la función de distribución.
Tenemos
fY (y) =

4
y2
si 0,8 < y < 1,
0 de otro modo.
Observamos que Y no sigue una distribución uniforme, puesto que a pesar de que
part́ıamos de una distribución uniforme, X, le hemos aplicado una transformación no
lineal.
CC-BY-NC-ND • PID 00253299 10 Funciones de variables aleatorias
Funciones derivables
De manera informal, decimos
que una función es derivable
cuando es continua y no
tiene picos.
En el ejemplo anterior, para poder obtener la función de densidad de Y fY (y),
hemos tenido que calcular previamente la función de distribución FY (y). Cuan-
do la función g(x) es derivable y estrictamente creciente o estrictamente decre-
ciente, podemos encontrar la función de densidad de Y directamente a partir
de la función de densidad de X fX(x), tal y como se explica a continuación.
2.1. Función de densidad de Y = g(X) cuando g(x)
es estrictamente creciente
Empezamos, pues, asumiendo una función continua, creciente y con una corres-
pondencia
de uno a uno entre la variable X y los valores que toma, Y = g(X).
Por definición, sabemos que la función de distribución de la variable Y se define
como FY (y) = P (Y ≤ y). También sabemos que Y = g(X); por lo tanto:
FY (y) = P (Y ≤ y) = P (g(X) ≤ y).
Función inversa
La función inversa g−1(x)
deshace los cambios que
hab́ıa hecho la función g(x).
Bajo las condiciones que acabamos de enumerar en el párrafo anterior para
Y = g(X), existe una función inversa, g−1(x), que está muy definida en todos
los puntos y que nos permite obtener los valores de X a partir de Y . Si g
es creciente, g−1 también lo será y podemos aplicarla a los dos lados de una
desigualdad, de forma que se mantenga la desigualdad. Si aplicamos la función
inversa a los dos lados de la expresión g(X) ≤ y, obtenemos lo siguiente:
g−1(g(X)) ≤ g−1(y) ⇒ X ≤ g−1(y).
Si seguimos con el cálculo que hab́ıamos empezado de FY (y), podemos escribir
lo siguiente:
FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ≤ g−1(y)).
Ahora, en el último término de esta igualdad aparece la probabilidad de que X
sea menor que un cierto valor, es decir, aparece la definición de la función de
distribución de X, puesto que P (X ≤ g−1(y)) = FX(g−1(y)). Por lo tanto,
podemos decir que:
FY (y) = FX(g
−1(y)). (3)
Una vez encontrada la función de distribución, haremos la derivada para en-
contrar la función de densidad. Antes de dar este paso, hay que apuntar que el
hecho de que g(x) sea estrictamente creciente y derivable nos permite escribir:
Derivada de funciones
inversas
Si f(x) y g(x) son funciones
inversas, es decir,
g ◦ f = f ◦ g = I, entonces
g′(x) = 1
f ′(f−1(x))
.
(g−1(y))′ =
1
g′(g−1(y))
=
1
g′(x)
con x = g−1(y),
CC-BY-NC-ND • PID 00253299 11 Funciones de variables aleatorias
Véase también
La función de densidad se
estudia en el subapartado 3.1
del módulo ((Variables
aleatorias)).
Es decir, la derivada de esta función inversa, g−1(x), es 1 dividido entre la deri-
vada de la función g(x). Ahora ya podemos obtener la densidad de Y derivando
la distribución de Y dada por (3), utilizando la regla de la cadena:
fY (y) = F
′
Y (y) = F
′
X(g
−1(y))(g−1(y))′ = fX(g
−1(y))
1
g′(g−1(y))
,
y llegamos al resultado siguiente.
.
Si la transformación Y = g(X) es estrictamente creciente:
fY (y) =
fX(x)
g′(x)
con x = g−1(y). (4)
Ejemplo 2.2
Consideramos las variables aleatorias X e Y = X3. En este caso, tenemos g(x) = x3, que
es estrictamente creciente y derivable. De y = x3 encontramos x = g−1(y) = y
1
3 . Utili-
zando el resultado que acabamos de encontrar, que relaciona las funciones de densidad
fY (y) y fX(x), llegamos al resultado siguiente:
fY (y) =
fX(x)
g′(x)
=
fX(x)
3x2
=
1
3y
2
3
fX(y
1
3 ).
Ejemplo 2.3
Suponed que tenemos una variable aleatoria gaussiana con valor medio m y varianza σ2,
X ∼ N(m,σ). Definimos una nueva variable aleatoria según la transformación siguiente:
Y = aX + b. Si hacemos a > 0, entonces esta función g(X) = aX + b es estrictamente
creciente.
Ahora calculamos la función de densidad de la nueva variable Y :
fY (y) =
fX(x)
g′(x)
=
1
a
fX(x) =
1
a
fX
(
y − b
a
)
.
Véase también
La distribución de Gauss se
estudia en el subapartado
3.2.3 del módulo ((Variables
aleatorias)).
Para llegar a este resultado, recordad que dy/dx = a y que x = y−b
a
. Ahora sustituimos
la función de densidad fX(x) de esta última igualdad por la función de densidad de la
distribución normal o de Gauss y llegamos a la ecuación siguiente:
fY (y) =
1
a
√
2πσ
e
−
(
y−b
a
−m)2
2σ2 =
1
√
2πaσ
e
− (y−(am+b))
2
2(aσ)2 .
Observad que la función de densidad de la variable Y es también gaussiana; esto es porque
hemos aplicado una transformación lineal y, por lo tanto, la forma de la variable Y se ha
mantenido. Únicamente han cambiado el valor medio y la desviación: Y ∼ N(am+b, aσ).
CC-BY-NC-ND • PID 00253299 12 Funciones de variables aleatorias
2.2. Función de densidad de Y = g(X) cuando g(x) es estrictamente
decreciente
Si la función g(x) es estrictamente decreciente y derivable, obtenemos una ex-
presión parecida a la del subapartado anterior:
FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ≥ g−1(y)) = 1− FX(g−1(y)).
Observad, sin embargo, la tercera igualdad de esta ecuación. Dado que la fun-
ción que aplicamos ahora es decreciente, el suceso Y ≤ y es equivalente al suceso
X ≥ g−1(y). En la cuarta igualdad, aplicamos el hecho de que si un suceso tiene
una probabilidad p, su complementario tiene una probabilidad 1− p.
Como hemos hecho en el subapartado 2.1, si derivamos esta expresión llegamos
al siguiente resultado.
.
Si la transformación Y = g(X) es estrictamente decreciente:
fY (y) = −
fX(x)
g′(x)
con x = g−1(y). (5)
Ejemplo 2.4
Consideramos las variables aleatorias X e Y = −X3. En este caso tenemos g(x) = −x3,
que es estrictamente decreciente y derivable, y x = g−1(y) = −y
1
3 . La relación entre las
funciones de densidad es:
fY (y) = −
fX(x)
g′(x)
=
fX(x)
3x2
=
1
3y
2
3
fX(−y
1
3 ).
2.3. Función de densidad de Y = g(X) cuando g(x) no es monótona
Transformaciones con trozos
constantes
Si Y = g(X) y g(x) es
constante en algún intervalo
en el que la densidad de X es
no nula, la variable Y no es
continua sino mixta. Estos
casos se tienen que tratar
con más cuidado.
En los casos vistos anteriormente, g(x) era una función monótona (siempre
creciente o siempre decreciente). Si g(x) tiene intervalos de crecimiento y de-
crecimiento, calcular la función de distribución de Y es más complicado. En
este caso, se llega a un método para calcular la densidad de Y directamente a
partir de la densidad de X.
Consideremos el caso, bastante general, en el que la función y = g(x) es deri-
vable a trozos y no hay ningún intervalo en el que sea constante. Resolvemos
y = g(x) con soluciones x1(y), . . . , xn(y).
CC-BY-NC-ND • PID 00253299 13 Funciones de variables aleatorias
Entonces, la función de densidad de Y se obtiene a partir de la expresión
siguiente:
.
Si la transformación Y = g(X) no es constante en ningún intervalo:
fY (y) =
fX(x1)
|g′(x1)|
+ · · ·+ fX(xn)
|g′(xn)|
. (6)
donde xi(y) son las diferentes soluciones de la ecuación g(x) = y.
(fY (y) = 0 para los valores de y tales que la ecuación no tiene soluciones.)
Notamos que el anterior resultado incluye los casos estudiados en los apartados
2.1 y 2.2. En estos casos, g(x) = y tiene como mucho una solución.
Ejemplo 2.5
Consideramos una variable normal X ∼ N(0, 1) y una nueva variable Y definida por la
transformación Y = X2.
X toma valores en todo R. Su densidad es fX(x) = e
−x2/2
√
2π
. La transformación no es
monótona (y = x2 es decreciente para x < 0 y creciente para x > 0). Resolviendo
la ecuación x2 = y, encontramos que no hay ninguna solución para y < 0, mientras
que para y > 0 hay dos soluciones: x1(y) = −
√
y y x2(y) =
√
y. La derivada de la
transformación es g′(x) = 2x.
Entonces: fY (y) = 0 para y < 0. Para y > 0:
fY (y) =
fX(x1)
|2x1|
+
fX(x2)
|2x2|
=
e−x
2
1/2
√
2π
·
1
|2x1|
+
e−x
2
2/2
√
2π
·
1
|2x2|
=
e−y/2
√
2πy
+
e−y/2
√
2πy
=
√
2
πy
e−y/2.
Ejemplo 2.6
Aplicamos ahora la transformación Y = X2 a una variable uniforme X ∼ U(2, 3). X solo
toma valores en el intervalo (2, 3). Su densidad es fX(x) =
1
3−2 = 1 para 2 < x < 3.
La transformación no es monótona (y = x2 es decreciente para x < 0 y creciente para
x > 0). Resolviendo la ecuación x2 = y para y positiva encontramos dos soluciones ±√y,
pero fX(x) vale 0 en la solución negativa, aśı que en la fórmula (6) solo consideramos
x =
√
y. Además, dado que 2 < x < 3, tenemos que tomar 4 < y < 9.
Entonces, para
4 < y < 9:
fY (y) =
fX(x)
|2x|
=
1
2
√
y
.
mientras que fY (y) = 0 fuera de este intervalo.
CC-BY-NC-ND • PID 00253299 14 Funciones de variables aleatorias
2.4. Ejemplos aplicados a las comunicaciones: el rectificador
de media onda y el convertidor de analógico a digital
En los siguientes ejemplos, las transformaciones son constantes en algunos inter-
valos, de forma que la variable resultante no es continua. En el primer ejemplo
resulta una variable mixta, mientras que en el segundo ejemplo se obtiene un
variable discreta.
Ejemplo 2.7
Un rectificador de media onda es un dispositivo electrónico que elimina la parte positiva
o negativa de una señal. En la figura 2 podéis ver su funcionamiento.
Figura 2
El rectificador de media onda
de este ejemplo elimina la
parte negativa de la señal de
entrada.
Figura 2. Rectificador de media onda
vi
t
+
–
Rectificador
de media onda
vo
t
+
vo
vi
Curva de
transferencia
Onda rectificada
La función g(x) definida por este dispositivo es
y = g(x) =
 x si x ≥ 0,0 si x < 0.
Observación
Observad que la variable y es
mixta, ya que para valores
negativos de x toma un solo
valor (discreto), igual a cero,
y para valores positivos, toma
el valor de x.
Ahora suponed que hacemos pasar por este rectificador una señal gaussiana de media
cero y varianza σ2. Calcularemos la función de densidad de la variable aleatoria generada
a la salida del rectificador.
Dado que la transformación tiene un trozo constante (el semieje x < 0), podemos prever
que la variable resultante sea mixta. Por lo tanto, calcularemos la función de distribución
de Y y la derivaremos utilizando la delta de Dirac, tal y como se vio en el apartado 3.6
del módulo ((Variables aleatorias)).
Para y < 0, FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = 0, puesto que g(x) nunca es negativa.
En y = 0, FY (0) = P (Y ≤ 0) = P (g(X) ≤ 0) = P (g(X) = 0) = P (X ≤ 0) = FX(0) = 12
(hemos definido la señal de entrada al rectificador como una variable de Gauss con valor
medio cero; por lo tanto, P (X < 0) = 1
2
).
Para y > 0, FY (y) = P (g(X) ≤ y) = P (X ≤ y) = FX(y).
Aśı, podemos expresar el resultado:
FY (y) = u(y)FX(y).
CC-BY-NC-ND • PID 00253299 15 Funciones de variables aleatorias
Si derivamos, se obtiene:
fY (y) = F
′
Y (y) = u
′(y)FX(y) + u(y)F
′
X(y) = δ(y)FX(0) + u(y)fX(y).
Aśı pues, la función de densidad de la señal de salida del rectificador es la siguiente:
fY (y) =
1
√
2πσ2
e
− y
2
2σ2 u(y) +
1
2
δ(y).
Observad que esta función de densidad tiene dos partes: una parte continua, que se da
para valores de y mayores que cero -por eso el primer término está multiplicado por la
función escalón u(y)-, y una parte discreta para y = 0, que representamos utilizando la
función delta (δ(y)).
Ejemplo 2.8
Supongamos que ahora la transformación g(x) que aplicamos a una señal de entrada es
g(x) = y0 en vez de g(x) = x para x1 ≤ x ≤ x2. Como hemos visto en el ejemplo
anterior, la función de densidad fY (y) incluirá un componente discreto (acompañado de
la función delta, δ(y)) de valor igual a P (Y =y0) = P (x1 ≤ x ≤ x2) en el punto y = y0.
Podemos definir diferentes valores de g(x) para distintos intervalos. Aśı es como funciona
un convertidor de analógico a digital. Dada una señal de entrada analógica (continua),
este circuito lo que hace es discretizarla según una serie de intervalos definidos y con
una resolución concreta. En la figura 3 podéis ver cómo es la curva de transferencia o
transformación g(x) de este dispositivo.
Figura 3
Un cuantificador transforma
una señal analógica y
continua en una señal
discreta o digital.
Figura 3. Curva de transferencia de un cuantificador
x
y = g(x)
y5
y4
y3
y2
y1
x5x4x3x2x1
En términos de variables aleatorias, este convertidor toma una variable aleatoria continua,
X, y la transforma en una variable aleatoria discreta. Si definimos la función g(x) de la
manera siguiente:
y = g(x) =

y0 si x < x1
· · ·
yi si xi ≤ x < xi+1
· · ·
yN si x ≥ xN .
CC-BY-NC-ND • PID 00253299 16 Funciones de variables aleatorias
Entonces Y resulta una variable aleatoria discreta y podemos trabajar directamente con
las probabilidades, tal y como hemos visto en el apartado 1 de este módulo. La función
de probabilidad para este ejemplo queda, pues, definida como sigue:
P (Y = yi) =

P (X < x1) si i = 0
P (xi ≤ X < xi+1) si i = 1, 2, . . . , N − 1
P (X ≥ xN ) si i = N .
CC-BY-NC-ND • PID 00253299 17 Funciones de variables aleatorias
3. Teorema de la esperanza
.
En los apartados anteriores de este módulo, hemos visto cómo se pueden aplicar
funciones sobre una variable aleatoria, ya sea discreta o continua, para obtener
una nueva variable aleatoria. En el caso de las variables discretas, hemos visto
que podemos definir directamente las probabilidades (función de probabilidad)
de la nueva variable aleatoria. En el caso de las variables aleatorias continuas,
hemos visto cómo podemos obtener las funciones de distribución y de densidad.
También hemos obtenido una fórmula que nos simplifica los cálculos y que
podemos aplicar cuando la función de transformación, g(x), es estrictamente
creciente, decreciente, o podemos hacer esta separación por tramos.
Muchas veces, solo nos interesa encontrar el valor medio o esperanza de la
variable transformada Y = g(X), y no necesitamos encontrar previamente la
función de densidad fY (y). El teorema de la esperanza nos permite encontrar
la esperanza, E(Y ), de la variable aleatoria Y definida por Y = g(X), aunque
fY (y) no sea conocida.
.
Teorema de la esperanza para variables aleatorias continuas
Si X es una variable aleatoria continua y definimos una nueva variable
aleatoria, Y = g(X), entonces:
E(Y ) =
∫ ∞
−∞
g(x)fX(x) dx. (7)
Aunque hemos enunciado este teorema para variables aleatorias continuas, tam-
bién es válido para variables aleatorias discretas y solo hay que tener en cuenta
que en lugar de integrales, tendremos sumatorios.
.
Teorema de la esperanza para variables aleatorias discretas.
Si X es una variable aleatoria discreta que toma valores en el con-
junto {a1, a2, . . . , an} y definimos una nueva variable aleatoria discreta
Y = g(X), entonces:
E(Y ) =
n∑
i=1
g(ai)P (X=ai). (8)
CC-BY-NC-ND • PID 00253299 18 Funciones de variables aleatorias
Observación
El teorema de la esperanza
nos permite calcular
directamente la esperanza de
Y = g(X) a partir de la
función de densidad (o de
probabilidad) de la variable
aleatoria X.
Ejemplo 3.1
Con el mismo enunciado que en el ejemplo 2.1, encontraremos la esperanza de la variable
Y de dos maneras diferentes:
1) A partir de la definición de E(Y ) y a partir de fY (y). Hab́ıamos encontrado
fY (y) =

4
y2
si 0,8 < y < 1
0 de otro modo
Tenemos:
E(Y ) =
∫ ∞
−∞
y fY (y) dy =
∫ 1
0,8
y
4
y2
dy = [4 ln y]10,8 = −4 ln(0,8).
2) Utilizando el teorema de la esperanza, en el que solo hay que recordar la función de
densidad de la variable original, X:
fX(x) =

1
2
si 8 < x < 10
0 de otro modo
E(Y ) =
∫ ∞
−∞
g(x) fX(x) dx =
∫ 10
8
8
x
·
1
2
dx = 4(ln 10− ln 8) = −4 ln(0, 8).
.
Linealidad de la esperanza
Sea X una variable aleatoria continua o discreta. Se satisface:
E(ag(X) + bh(X)) = aE(g(X)) + bE(h(X)), (9)
donde a, b ∈ R y g, h son funciones de X.
Observación
La esperanza es un operador
lineal. Además, hay que notar
que en el caso de una
constante c, se satisface
E(c) = c. Hay que notar, sin
embargo, que la varianza no
presenta esta propiedad.
Con esta propiedad, ahora podemos demostrar una propiedad que ya hab́ıamos
usado:
Var(X) = E((X−E(X))2) = E(X2−2X E(X)+E(X)2) = E(X2)−2 E(X) E(X)+
E(X)2 = E(X2)− E(X)2.
CC-BY-NC-ND • PID 00253299 19 Funciones de variables aleatorias
Ejemplo 3.2
Variable aleatoria constante. Esperanza y varianza de una variable transfor-
mada linealmente
Dada la variable aleatoria X, definimos la nueva variable Y = aX + b donde a y b son
constantes.
Notamos que en el caso a = 0, resulta que la variable Y es constante Y = b. Este es un
caso especial: una variable que siempre toma el mismo valor. Se trata de una variable
discreta que toma un único valor (ΩY = {b}) con probabilidad 1 (P (Y =b) = 1). De aqúı
se deduce inmediatamente que su esperanza es b (E(Y ) = b · 1 = b) y su varianza es cero
(Var(Y ) = (b− b)2 · 1 = 0):
E(b) = b, Var(b) = 0. (10)
Volviendo a la transformación Y = aX + b.
E(Y ) = E(aX + b) = aE(X) + E(b) = aE(X) + b.
Var(Y ) = E[(Y − E(Y ))2] = E[((aX + b)− (aE(X) + b))2] =
= E[a2(X − E(X))2] = a2 E[(X − E(X))2] = a2 Var(X).
Es decir:
E(aX + b) = aE(X) + b, Var(aX + b) = a2 Var(X). (11)
Ejemplo 3.3
El tiempo en años, X, que tarda en estropearse un componente electrónico, sigue una
distribución exponencial, Exp(1). El coste, Y , de reparación del componente durante el
primer año, es función de 2X, mientras que después es de 3X + 2. Encontramos el valor
medio del coste.
Podemos expresar el coste Y como:
Y = g(X) =
 2X si 0 < X < 1
3X + 2 si X ≥ 1
A continuación, calculamos la esperanza de la variable Y . Aplicando el teorema de la
esperanza -X tiene densidad fX(x) = e
−x por x > 0:
E(Y ) =
∫ ∞
−∞
g(x)fX(x)dx =
∫ ∞
0
g(x)e−xdx =
∫ 1
0
2xe−xdx+
∫ ∞
1
(3x+ 2)e−xdx
= 2[−(x+ 1)e−x]10 + [−(3x+ 5)e−x]∞1 = 2(−2e−1 + 1) + 8e−1 = 2 + 4e−1.
CC-BY-NC-ND • PID 00253299 20 Funciones de variables aleatorias
Resumen
En este módulo, hemos visto que podemos tomar una variable aleatoria (ya
sea discreta o continua) y aplicarle una función g(X) tal que obtengamos una
nueva variable aleatoria Y = g(X).
Para el caso de las variables aleatorias discretas (apartado 1 de este módulo),
hemos visto que podemos calcular la distribución de probabilidades, es decir,
definir todas las probabilidades P (Y = bj)) a partir de las probabilidades de X:
P (Y =bj) =
∑
ai
(g(ai)=bj)
P (X=ai).
Para el caso de las variables aleatorias continuas (apartado 2 de este módulo),
hemos visto que a partir de la función de distribución y de densidad de X,
FX(x) y f(x), respectivamente, podemos calcular la función de distribución y
de densidad de la nueva variable aleatoria Y :
FY (y) = P (Y ≤ y) = P (g(X) ≤ y).
Hemos visto también tres casos especiales que nos permiten calcular rápida-
mente la función de densidad de la nueva variable Y a partir de la función de
densidad de la variable X. Estos casos son los siguientes:
• Cuando la función g(x) es estrictamente creciente, entonces:
fY (y) =
fX(x)
g′(x)
con x = g−1(y).
• Cuando la función g(x) es estrictamente decreciente, entonces:
fY (y) = −
fX(x)
g′(x)
con x = g−1(y).
• Cuando la función g(x) no tiene trozos constantes, entonces:
fY (y) =
fX(x1)
|g′(x1)|
+ · · ·+ fX(xn)
|g′(xn)|
.
Finalmente hemos visto el teorema de la esperanza, que permite calcular la
esperanza de la nueva variable sin haber calculado su densidad.
CC-BY-NC-ND • PID 00253299 21 Funciones de variables aleatorias
Actividades
1. Disponemos de un generador de números aleatorios, X, dentro del intervalo (0, 1). Quere-
mos estudiar qué sucede con nuestro generador si aplicamos sobre X una función exponencial
de tipo Y = eX . Se pide lo siguiente:
a) Encontrad la función de distribución de la variable aleatoria Y .
b) Encontrad la función de densidad de la variable aleatoria Y a partir del resultado del
apartado anterior.
c) Volved a calcular la densidad de Y , a partir de la densidad de X.
d) Encontrad E(Y ) a partir de la función de densidad de X.
Pista: utilizad el teorema de la esperanza.
2. Disponemos de un generador de onda cuadrada en el que la anchura de cada pulso depende
de la frecuencia de trabajo. Denominamos esta anchura a. Dentro de cada pulso, necesitamos
recibir una señal de sincronización. Llamamos X a esta señal, que se comporta como una
variable aleatoria uniforme en el intervalo (0, a), en el que a > 0. En la figura 4, podéis ver
un ejemplo de esto.
Figura 4. Sincronización de una onda cuadrada
a
señal
sincronización
Se pide:
a) Encontrad el valor esperado de la variable aleatoria X, es decir, E(X).
b) Encontrad el momento de orden 2 de la variable aleatoria X, es decir, E(X2).
c) Encontrad la expresión genérica del momento de orden n de la variable aleatoria X, es
decir, E(Xn), n = 1, 2, . . ..
3. La atenuación en las señales transmitidas que introduce un canal de comunicaciones se
puede modelizar con una variable aleatoria X que sigue una distribución N(m,σ). Para
compensar las pérdidas introducidas, hacemos pasar la señal de salida por un filtro con
forma Y = eX . Se pide lo siguiente:
a) Representad la función y = g(x) = ex y comprobad que es una función derivable y
estrictamente creciente.
b) Encontrad la función de densidad de Y , expresada en función de los parámetros m y σ.
c) Cuando X = lnY es una normal, la distribución de Y se denomina log-normal. Buscad por
internet algún ámbito de aplicación de esta distribución log-normal (por ejemplo, el ámbito
de la fiabilidad) y comentadlo brevemente.
4. La amplitud de una onda electromagnética se representa por una variable aleatoria X
uniforme en el intervalo [0, 2]. Para calcular la potencia que transporta la onda, necesitamos
calcular el cuadrado del módulo del campo. Por lo tanto, definimos Y = X2. Se pide lo
siguiente:
a) Encontrad la función de distribución de la variable aleatoria Y .
b) Encontrad la función de densidad de la variable aleatoria Y .
c) Encontrad E(Y ) a partir de la función de densidad de X.
CC-BY-NC-ND • PID 00253299 22 Funciones de variables aleatorias
5. Sea X una variable aleatoria continua con función de distribución FX(x). Se define
Y = g(X) = FX(X). Demostrad que Y es una variable aleatoria uniforme en (0, 1), es
decir, que su función de densidad coincide con la de una uniforme en (0, 1).
Pista: utilizad el hecho de que FX(x) es una función creciente y derivable.
6. Hacemos pasar una señal acústica X por un amplificador que tiene la función caracteŕıstica
siguiente: y = g(x) = ax+ b, donde a es un valor positivo. La intensidad de la señal acústica
de entrada es una variable aleatoria exponencial de parámetro λ. Encontrad la función de
distribución y la función de densidad de la variable aleatoria Y que da la intensidad de salida.
7. Un saturador es un circuito que recorta la amplitud de las señales a partir de un cierto
umbral. En la figura 5, podéis ver un ejemplo de esto.
Encontrad la función de distribución y de densidad de Y en función del parámetro b y de
FX(x), fX(x).
Figura 5. Circuito saturador
b
0
–b
y 
=
 g
(x
)
–b 0
x
b
CC-BY-NC-ND • PID 00253299 23 Funciones de variables aleatorias
Solucionario
1.
a) Puesto que X ∼ U(0, 1), X tiene función de densidad de fX(x) = 1, y función de distri-
bución FX(x) = x, para 0 < x < 1.
Notad que 0 < x < 1 ⇔ 1 < y < e. Por lo tanto, la función de distribución de Y será:
FY (y) = P (Y ≤ y) = P
(
eX ≤ y
)
= P (X ≤ ln y) = FX(ln y) = ln y, 1 < y < e.
Es decir: FY (y) =

0 si y < 1,
ln y si 1 ≥ y < e,
1 si y ≥ e.
b) La función de densidad de Y será: fY (y) =
d
dy
FY (y) =
d
dy
ln y = 1
y
, 1 < y < e.
Es decir: fY (y) =

1
y
si 1 < y < e,
0 de otro modo.
c) y = g(x) = ex, g′(x) = ex. Si x vaŕıa entre 0
y 1, y vaŕıa entre 1 y e.
fY (y) =
fX(x)
|g′(x)|
=
1
ex
=
1
y
.
d) Por el teorema de la esperanza: E(Y ) =
∫ ∞
−∞
exfX(x)dx =
∫ 1
0
exdx = e− 1.
2.
a) X ∼ U(0, a) tiene densidad fX(x) = 1a para 0 < x < a.
E(X) =
∫ a
0
x
a
dx =
[
x2
2a
]a
0
=
a
2
.
b) E(X2) =
∫ a
0
x2
a
dx =
[
x3
3a
]a
0
=
a2
3
.
c) E(Xn) =
∫ a
0
xn
a
dx =
[
xn+1
(n+ 1)a
]a
0
=
an
n+ 1
.
3.
a) La gráfica de la función es:
CC-BY-NC-ND • PID 00253299 24 Funciones de variables aleatorias
b) La función de densidad de X es: fX(x) =
1
σ
√
2π
exp
[
− 1
2σ2
(x−m)2
]
, −∞ < x <∞.
y = g(x) = ex es estrictamente creciente y derivable. Los valores que toma y son todos los
de 0 a ∞. También tenemos g′(x) = ex = y.
fY (y) =
fX(x)
g′(x)
=
1
y
fX(ln y) =
1
y
√
2πσ
exp
[
−
1
2σ2
(ln y −m)2
]
, 0 < y <∞.
c) Uno de los ámbitos en los que se aplica la distribución log-normal es el de la fiabilidad. Esta
distribución se suele utilizar para modelizar tiempos de fallo o de reparación de dispositivos
electrónicos que forman parte de sistemas o redes de telecomunicaciones. En estos casos, se
suele hacer uso de la log-normal (u otras distribuciones, como la de Weibull) para modelizar
los tiempos mencionados, puesto que si utilizáramos una distribución normal, se podŕıan
obtener valores negativos para los tiempos de fallo o reparación, lo que careceŕıa de sentido.
4.
a) Puesto que X ∼ U(0, 2), la función de densidad de X es fX(x) = 12 para 0 ≤ x ≤ 2.
Observad que 0 ≤ x ≤ 2 ⇔ 0 ≤ y ≤ 4.
Por lo tanto, la función de distribución de Y será:
FY (y) = P (Y ≤ y) = P
(
X2 ≤ y
)
= P (0 ≤ X ≤ √y) =
∫√y
0 fX(x)dx =
1
2
∫√y
0 dx =
√
y
2
,
para 0 ≤ y ≤ 4.
Es decir: FY (y) =

0 si y < 0,
√
y
2
si 0 ≤ y < 4,
1 si y ≥ 4.
b) La función de densidad de Y será: fY (y) =
d
dy
FY (y) =
d
dy
√
y
2
= 1
4
√
y
para 0 < y < 4.
Es decir: fY (y) =

1
4
√
y
si 0 < y < 4,
0 de otro modo.
De manera alternativa, se puede calcular fY (y) =
fX(x)
g′(x)
=
1/2
2x
=
1
4
√
y
.
c) Según el teorema de la esperanza: E(Y ) =
∫ ∞
−∞
x2fX(x)dx =
∫ 2
0
x2
2
dx =
4
3
.
Podemos verificar que coincide con el valor esperado:
E(Y ) =
∫ ∞
−∞
yfY (y)dy =
∫ 4
0
y
4
√
y
dy =
1
4
∫ 4
0
√
ydy =
4
3
.
5. Por las propiedades de las funciones de distribución, FX(x) es creciente en R con valores
dentro de [0, 1]. Además, haciendo uso del resultado sobre funciones de densidad de Y = g(X),
tenemos que:
fY (y) =
fX(x)
g′(x)
=
fX(x)
dFX (x)
dx
=
fX(x)
fX(x)
= 1, 0 < x < 1.
CC-BY-NC-ND • PID 00253299 25 Funciones de variables aleatorias
Es decir: fY (y) =

1 si 0 < y < 1,
0 de otro modo.
Por lo tanto, Y ∼ U(0, 1).
El resultado es claro cuando FX es estrictamente creciente. Si en algún intervalo es constante,
en este intervalo fX(x) = F
′
X(x) = 0 y no hay contribución a la densidad de Y .
6. Sabemos que y = g(x) = ax+ b. Por lo tanto, aislando la x de esta expresión, llegamos a:
x = g−1(y) =
y − b
a
.
De esta relación, podemos sacar:
FY (y) = FX
(
y − b
a
)
.
Śı X ∼ Exp(λ): FX(x) =

1− e−λx si x ≥ 0,
0 si x < 0.
Entonces, si y < b, el argumento de FX es negativo y su valor es 0. Si y > b, el argumento
de FX es positivo y llegamos a:
FY (y) =

1− e−λ
y−b
a si y ≥ b,
0 si y < b.
Para calcular la función de densidad, podemos derivar la anterior función o utilizar la densidad
de X: fX(x) =

λe−λx si x ≥ 0,
0 si x < 0,
y la regla de transformación:
fY (y) =
fX(x)
|g′(x)|
=
fX
(
y−b
a
)
a
,
puesto que g′(x) = a > 0. Por lo tanto:
fY (y) =

λ
a
e−λ
y−b
a si y > b,
0 si y < b.
7. Según la figura 5, la variable Y toma los valores siguientes:
Y = g(X) =

−b si X < −b,
X si −b ≤ X < b,
b si X ≥ b.
CC-BY-NC-ND • PID 00253299 26 Funciones de variables aleatorias
Teniendo en cuenta esto, y en función de FX(x), es decir, para una función de distribución
de X genérica, FY (y) es:
FY (y) =

0 si y < −b,
FX(y) si −b ≤ y < b,
1 si y ≥ b.
Para calcular la función de distribución, debemos tener en cuenta que la función de dis-
tribución de Y tiene discontinuidades de salto en los puntos y = −b y y = b. Estos pun-
tos tienen carácter discreto con probabilidades P (Y = −b) = P (X < −b) = FX(−b) y
P (Y = b) = P (X > b) = 1− FX(b). Estos puntos dan contribuciones tipo función delta a la
densidad. Por el resto del intervalo (−b, b), podemos derivar FX(y) y obtenemos fX(y).
Utilizando funciones escalón, podemos expresar:
FY (y) = (u(y + b)− u(y − b))FX(y) + u(y − b)
Por lo tanto, y tal como hab́ıamos visto en el ejemplo 2.7 de este módulo, podemos derivar
la anterior función y expresar la función de densidad como sigue:
fY (y) = FX(−b) δ(y + b) + (1− FX(b)) δ(y − b) + fX(y) · 1(−b,b)(y),
donde 1(−b,b)(y) = u(y + b)− u(y − b) vale 1 si −b < y < b y 0 en caso contrario.
			Introducción
			Objetivos
			Función de una variable aleatoria discreta
			Función de una variable aleatoria continua
			Función de densidad de Y = g(X) cuando g(x) es estrictamente creciente
			Función de densidad de Y=g(X) cuando g(x) es estrictamente decreciente
			Función de densidad de Y = g(X) cuando g(x) no es monótona
			Ejemplos aplicados a las comunicaciones: el rectificador de media onda y el convertidor de analógico a digital
			Teorema de la esperanza
			Resumen
			Actividades
			Solucionario
Modulo4.pdf
Vectores 
aleatorios
PID 00253304
Ana Escudero
Alícia Miralles
Alícia Vila
Tiempo mínimo de dedicación recomendado: 3 horas
Los textos e imágenes publicados en esta obra están sujetos -salvo que se indique lo contrario-
a una licencia de Reconocimiento-NoComercial-SinObraDerivada (BY-NC-ND) v.3.0 España de
Creative Commons. Podéis copiarlos, distribuirlos y transmitirlos públicamente siempre que citéis
al autor y la fuente (FUOC. Fundación para la Universitat Oberta de Catalunya), no hagáis un
uso comercial de ellos y no hagáis obra derivada. La licencia completa se puede consultar en
http: // creativecommons. org/ licenses/ by-nc-nd/ 3. 0/ es/ legalcode. es .
http://creativecommons.org/licenses/by-nc-nd/3.0/es/legalcode.es
CC-BY-NC-ND • PID 00253304 Vectores aleatorios
Índice
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1. Vector aleatorio (X,Y ) con X e Y variables aleatorias
discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1. Probabilidad conjunta. Probabilidad marginal . . . . . . . . . . . . . . . . 7
1.2. Funciones de probabilidad condicionadas. Independencia
de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3. Relación entre variables aleatorias discretas: covarianza
y coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2. Vector aleatorio (X,Y ) con X e Y variables aleatorias
continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1. Función de distribución conjunta. Función de densidad
conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2. Funciones de densidad marginales . . . . . . . . . . . . . . . . . . .
. . . . . . . . . 19
2.3. Funciones de densidad condicionadas.
Variables independientes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4. Relación entre variables aleatorias continuas: covarianza
y coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Actividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Solucionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
CC-BY-NC-ND • PID 00253304 5 Vectores aleatorios
Introducción
Hemos dedicado los módulos ((Variables aleatorias)) y ((Funciones de variables
aleatorias)) al estudio de variables aleatorias simples o unidimensionales.
Ahora bien, a veces nos encontramos con fenómenos que están relacionados
con más de una variable aleatoria a la vez. Por ejemplo, en un circuito en el
que la resistencia, inductancia y capacidad estén modelizadas como variables
aleatorias, tendremos que trabajar con tres variables aleatorias a la vez. En
los sistemas de transmisión, a menudo tenemos una señal de entrada aleatoria.
Dado que la variable de entrada es aleatoria, la señal de salida también lo es.
En este caso, necesitaremos trabajar con dos variables aleatorias para poder
encontrar la relación entre estas y poder caracterizar el sistema de transmisión.
También, si en un circuito tomamos 5 medidas de un valor desconocido, como
podŕıa ser la intensidad de la corriente, el error en cada una de estas medi-
das podŕıa ser modelizado por una variable aleatoria y entonces debeŕıamos
trabajar con cinco variables aleatorias al mismo tiempo.
El tratamiento de vectores de variables aleatorias nos introducirá la necesidad
de definir la probabilidad, distribución de probabilidad y función de densidad
conjuntas. Imaginad que tenemos un vector aleatorio bidimensional, (X,Y ),
en el que las variables X e Y son, respectivamente, la altura y el peso de un
estudiante. Podemos definir S1 como el espacio muestral para la altura y S2
como el espacio muestral para el peso. Cada una de estas variables tendrá su
función de probabilidad. Sin embargo, si ahora definimos el espacio muestral
S = S1 × S2, el resultado de nuestro experimento nos dará una altura y un
peso y podremos definir una probabilidad asociada a estos dos hechos.
En este módulo, utilizaremos los conceptos que hemos visto para el caso unidi-
mensional en los módulos anteriores y los extrapolaremos al caso de los vectores
aleatorios bidimensionales. En el apartado 1, veremos cómo se aplica este con-
cepto a las variables aleatorias discretas. El apartado 2 será parecido al primero,
pero consideraremos vectores de variables aleatorias continuas.
CC-BY-NC-ND • PID 00253304 6 Vectores aleatorios
Objetivos
Los objetivos que hay que lograr en este módulo son los siguientes:
1. Entender el concepto y la utilidad de vector aleatorio y saber poner ejemplos.
2. Conocer los vectores de variable aleatoria discreta y continua.
3. Calcular las funciones de probabilidad conjunta y de probabilidad marginal.
4. Aplicar los conceptos de probabilidad condicionada e independencia a vec-
tores aleatorios.
5. Relacionar las variables aleatorias de un vector mediante la covarianza y el
coeficiente de correlación.
CC-BY-NC-ND • PID 00253304 7 Vectores aleatorios
1. Vector aleatorio (X,Y ) con X e Y variables aleatorias
discretas
.
Empezamos el apartado definiendo qué entendemos por vector aleatorio bidi-
mensional, en este caso, aplicado a variables aleatorias discretas.
.
Definición 1.1. Si X e Y son dos variables aleatorias discretas, se de-
nomina vector aleatorio discreto bidimensional al vector (X,Y ).
Terminoloǵıa
A veces, (X,Y ) se denomina
variable aleatoria
bidimensional, y
(X1, X2, . . . , Xn), variable
aleatoria n-dimensional.
En general, dadas n variables aleatorias discretas, X1, X2, . . . , Xn, hay que
trabajar con el vector aleatorio discreto n-dimensional (X1, X2, . . . , Xn).
1.1. Probabilidad conjunta. Probabilidad marginal
Al tratar con vectores aleatorios, aparecen dos conceptos nuevos que no hab́ıamos
tratado anteriormente: la probabilidad conjunta y la probabilidad mar-
ginal. A continuación, las definimos.
.
Definición 1.2. Sean X, Y dos variables aleatorias discretas en las que
X toma los valores {a1, a2, . . . , an} e Y toma los valores {b1, b2, . . . , bm}.
Para cada pareja de valores ai, bj , tenemos definida la función de
probabilidad conjunta
P (X=ai, Y =bj) = P ({X=ai} ∩ {Y = bj}) (1)
También se utiliza la notación PXY (ai, bj) = P (X=ai, Y =bj).
Es decir, la probabilidad conjunta es la probabilidad de que la variable
aleatoria X tome el valor ai, y la variable aleatoria Y tome el valor bj .
CC-BY-NC-ND • PID 00253304 8 Vectores aleatorios
Para el caso particular en el que X toma los valores {a1, a2} e Y , {b1, b2},
obtenemos la tabla de probabilidades conjuntas siguiente.
Y \X a1 a2 P (Y =bj)
b1 P (X=a1, Y =b1) P (X=a2, Y =b1) P (Y =b1)
b2 P (X=a1, Y =b2) P (X=a2, Y =b2) P (Y =b2)
P (X=ai) P (X=a1) P (X=a2) 1
Definimos a continuación el concepto de probabilidad marginal.
.
Definición 1.3. Para cada valor ai, definimos la función de probabi-
lidad marginal de la variable X,
P (X=ai) =
m∑
j=1
P (X=ai, Y =bj), (2)
es decir, la suma de las probabilidades conjuntas fijado un valor de X y
para todos los valores de Y . De manera parecida, para cada bj , definimos
la función de probabilidad marginal de Y ,
P (Y =bj) =
n∑
i=1
P (X=ai, Y =bj). (3)
Observación
Con las probabilidades
marginales, trabajamos de la
misma manera que con las
probabilidades definidas para
una sola variable. Podemos,
por lo tanto, considerar los
mismos parámetros que
hab́ıamos definido en el tema
de variables aleatorias. En
particular, σX y σY son las
desviaciones t́ıpicas de X y
de Y , respectivamente.
En la última fila de la tabla anterior, obtenemos las probabilidades marginales
de X. La casilla de esta fila donde aparece P (X = a1) nos da la probabilidad
marginal de la variable X para el valor a1, puesto que nos dice cuál es la
probabilidad de obtener a1 para todos los valores de Y . Es decir, P (X=a1) =
P (X = a1, Y = b1) + P (X = a1, Y = b2). De manera análoga, en la última
columna de la tabla anterior, obtenemos las probabilidades marginales de Y .
Observad la última casilla de la tabla. Tiene un valor igual a 1 porque es la
probabilidad de cualquier valor del espacio muestral.
Ejemplo 1.1
Un emisor manda un mensaje binario (formado con elementos de {0, 1}), de tamaño
2 y al azar. Por el canal de transmisión, se pueden producir errores. Sabemos que la
probabilidad de que un bit llegue al receptor con error es P (error) = 0, 02. Definimos las
variables aleatorias de la manera siguiente: la variable aleatoria X cuenta el número de 0
que env́ıa el emisor y la variable aleatoria Y cuenta el número de 0 que llegan al receptor.
Calcularemos las probabilidades conjuntas y marginales. A partir de esto, calcularemos
CC-BY-NC-ND • PID 00253304 9 Vectores aleatorios
el valor medio o esperanza y la desviación t́ıpica. De este modo, podemos caracterizar las
variables aleatorias X e Y y compararlas.
Si el mensaje para transmitir es de tamaño 2, tanto la variable X como la Y , que cuentan
el número de ceros en el mensaje, pueden tomar los valores {0, 1, 2}. Puesto que X e Y
pueden tomar 3 valores, las combinaciones posibles de las variables X e Y para poder
calcular las probabilidades
son 3 · 3 = 9. Aśı pues, podemos definir las probabilidades
conjuntas siguientes: Observación
Observad que el mensaje
recibido no es independiente
del mensaje transmitido. Por
este motivo, P (R=11)
sabiendo que hemos
transmitido 11 es
P (R=11 |T =11).
• Se emite 11 y llega 11. P (X=0, Y =0) = P (T =11)P (R=11 |T =11) =
(
1
2
)2 ·0,982 =
0,2401. T es el mensaje transmitido y R representa el mensaje recibido.
• Se emite 11 y llega 01 o 10, es decir, tenemos error en uno de los dos bits. P (X =
0, Y =1) = P (T =11)P (R=01 |T =11) + P (T =11)P (R=10 |T =11) =
(
1
2
)2 · 0,02 ·
0,98 +
(
1
2
)2 · 0,98 · 0,02 = ( 1
2
)2 · 2 · 0,98 · 0,02 = 0,0098.
• Se emite 11 y llega 00. P (X=0, Y =2) =
(
1
2
)2 · 0,022 = 0,0001.
• Se emite 10 y llega 11 o se emite 01 y llega 11. P (X=1, Y =0) =
(
1
2
)2 · 0,98 · 0,02 +(
1
2
)2 · 0,02 · 0,98 = 0,0098.
• Se emite 01 y llega 01, o se emite 01 y llega 10, o se emite 10 y llega 10, o se emite
10 y llega 01. P (X=1, Y =1) = 2
(
1
2
)2 · 0,982 + 2 ( 1
2
)2
0,022 = 0,4804.
• Se emite 01 o 10 y llega 00. P (X=1, Y =2) = 2
(
1
2
)2 · 0,02 · 0,98 = 0,0098.
• Se emite 00 y llega 11. P (X=2, Y =0) =
(
1
2
)2 · 0,022 = 0,0001.
• Se emite 00 y llega 01 o 10. P (X=2, Y =1) = 2
(
1
2
)2 · 0,98 · 0,02 = 0,0098.
• Se emite 00 y llega 00. P (X=2, Y =2) =
(
1
2
)2 · 0,982 = 0,2401.
Calculamos ahora las probabilidades marginales. Es decir, fijamos el valor de una variable
y sumamos para todos los valores de la otra variable:
• P (X=0) = 0,25, P (X=1) = 0,5, P (X=2) = 0,25,
• P (Y =0) = 0,25, P (Y =1) = 0,5, P (Y =2) = 0,25.
La tabla de probabilidades conjuntas es la siguiente.
Y \X 0 1 2 P (Y =bj)
0 0,2401 0,0098 0,0001 0,25
1 0,0098 0,4804 0,0098 0,5
2 0,0001 0,0098 0,2401 0,25
P (X=ai) 0,25 0,5 0,25 1
Véase también
El valor medio se estudia en
el módulo ((Variables
aleatorias)) de esta
asignatura.
Ahora calculamos algunos parámetros que nos dan información de cada una de las varia-
bles:
• La esperanza o valor medio de la variable X, que es la suma de los valores que puede
tomar la variable aleatoria multiplicados por la probabilidad de aparecer, es decir:
E(X) = 0 · P (X=0) + 1 · P (X=1) + 2 · P (X=2) = 1.
CC-BY-NC-ND • PID 00253304 10 Vectores aleatorios
• La varianza de la variable X, que se define como la esperanza del valor de la variable
menos su esperanza y todo esto al cuadrado.
Es decir: Var(X) = E((X−E(X))2). Utilizando el teorema de la esperanza, Var(X) =
E(X2)− E(X)2. Ahora ya podemos calcular la varianza:
E(X2) = 02 · P (X=0) + 12 · P (X=1) + 22 · P (X=2) = 1, 5.
Var(X) = E(X2)− E(X)2 = 1, 5− 12 = 0,5.
• La desviación t́ıpica de la variable X que nos da información de la dispersión de los
valores que toma X, en las mismas unidades: σX =
√
0,5 = 0,707.
Podéis comprobar, haciendo los mismos cálculos, que para la variable Y obtenemos:
E(Y ) = 1, Var(Y ) = 0,5 y σY = 0,707.
1.2. Funciones de probabilidad condicionadas. Independencia
de variables aleatorias
Véase también
Recordad la noción de
probabilidad condicionada
que vimos en el subapartado
2.3 del módulo ((Introducción
a la probabilidad)).
Ya hemos estudiado la noción de probabilidad condicionada. Vimos cómo po-
demos calcular la probabilidad de un suceso sabiendo que se hab́ıa producido
otro suceso. En aquel caso, nos refeŕıamos a una sola variable aleatoria, X. Si
el resultado de un experimento no nos daba ninguna pista sobre el resultado
siguiente, hablábamos de sucesos independientes.
La noción de probabilidad condicionada que veremos a continuación aqúı es
básicamente la misma, pero en este caso calcularemos la probabilidad de que
la variable X tome un valor sabiendo cuál es el valor de la variable Y . Es decir,
calcularemos la probabilidad de X condicionada a Y .
.
Definición 1.4. Función de probabilidad de X condicionada a Y .
La probabilidad de que la variable X tome el valor ai sabiendo que Y
toma el valor bj (probabilidad de X=ai condicionada a Y =bj) es:
P (X=ai |Y =bj) =
P (X=ai, Y =bj)
P (Y =bj)
. (4)
Al trabajar con variables aleatorias bidimensionales, nos podŕıamos hacer la
pregunta inversa: cuál es la probabilidad de obtener un cierto valor de Y sabien-
do cuál es el valor que ha salido para la variable X. En este caso, hablaŕıamos de
probabilidad condicionada de Y aX y se define de manera análoga a la anterior.
CC-BY-NC-ND • PID 00253304 11 Vectores aleatorios
.
Definición 1.5. Función de probabilidad de Y condicionada a X.
La probabilidad de que la variable Y tome el valor bj sabiendo que X
toma el valor ai (probabilidad de Y =bj condicionada a X=ai) es:
P (Y =bj |X=ai) =
P (X=ai, Y =bj)
P (X=ai)
. (5)
A veces, el resultado que conocemos (ya sea una realización de X o de Y ) no
nos da ninguna pista sobre la probabilidad de la otra variable, es decir, los
resultados de las variables X e Y son independientes. Lo expresamos de la
manera siguiente.
.
Definición 1.6. Las variables X e Y son independientes si, y solo si,
P (X=ai, Y =bj) = P (X=ai)P (Y =bj), ∀i, j. (6)
Ejemplo 1.2
Con el mismo enunciado que en el ejemplo 1.1, nos hacemos las preguntas siguientes:
1) Sabiendo que el receptor ha recibido una palabra con un cero (Y = 1), ¿cuál es la
probabilidad de que el emisor haya enviado la palabra 00?
P (X=2 |Y =1) =
P (X=2, Y =1)
P (Y =1)
=
0,0098
0,5
= 0,0196.
2) ¿Las variables X e Y son independientes?
Dado que P (X = 2, Y = 1) = 0,0098 6= P (X = 2)P (Y = 1) = 0,125, no son indepen-
dientes. De hecho, hay una correlación alta entre el mensaje transmitido y el mensaje
recibido, puesto que en el 96 % de los casos ((1− 0,02)2 = 0,96) esperamos recibir lo
mismo que hemos transmitido.
1.3. Relación entre variables aleatorias discretas: covarianza
y coeficiente de correlación
Hasta aqúı hemos definido qué es un vector de variable aleatoria discreta, y nos
hemos centrado en estudiar el caso de los vectores formados por dos variables
aleatorias, es decir, los vectores aleatorios bidimensionales.
Hemos visto que parámetros como la esperanza, la varianza y la desviación
estándar se pueden extender fácilmente al caso bidimensional partiendo de
CC-BY-NC-ND • PID 00253304 12 Vectores aleatorios
la definición que hemos visto para el caso unidimensional. Ahora bien, en el
caso del vector aleatorio, nos podemos hacer una nueva pregunta que no nos
hab́ıamos planteado antes: ¿podemos medir cuál es la relación entre las variables
aleatorias que forman el vector? Esta pregunta es la que intentaremos resolver
en este subapartado.
Empezaremos definiendo tres parámetros que nos permiten caracterizar la re-
lación entre dos variables aleatorias, X e Y .
.
Definición 1.7. Definimos la esperanza del producto como sigue:
E(XY ) =
∑
i
∑
j
aibjP (X=ai, Y =bj). (7)
.
Definición 1.8. La covarianza entre dos variables aleatorias X e Y se
define de la manera siguiente:
Cov(X,Y ) = E[(X − E(X))(Y − E(Y ))] (8)
=
∑
i
∑
j
(ai − E(X))(bj − E(Y ))P (X=ai, Y =bj).
Desarrollando la suma anterior, después de multiplicar los términos de
los paréntesis llegamos a:
Cov(X,Y ) = E(XY )− E(X) E(Y ). (9)
Covarianza
Notad que después de
simplificar, la covarianza es la
esperanza del producto
menos el producto de
esperanzas de las dos
variables aleatorias del vector.
Otro parámetro estad́ıstico en lo referente a parejas de variables aleatorias es
el coeficiente de correlación, que es una versión normalizada de la covarianza
(o coeficiente de correlación lineal de Pearson).
Observación
La covarianza y el coeficiente
de correlación son parámetros
poblacionales que miden el
nivel de relación lineal entre
las variables.
.
Definición 1.9. El coeficiente de correlación entre
las variables X e
Y se define como la covarianza dividida entre las desviaciones estándar
de las variables aleatorias:
ρ =
Cov(X,Y )
σXσY
. (10)
CC-BY-NC-ND • PID 00253304 13 Vectores aleatorios
La covarianza nos da información sobre la posible existencia de relación lineal
entre X e Y , es decir, nos ayuda a saber si estas variables crecen de manera
conjunta o no. Para dar una información normalizada, hay que dividir el valor
de la covarianza por el producto de las desviaciones t́ıpicas de las dos variables.
Esto es justamente lo que hace el coeficiente de correlación de Pearson.
.
Propiedades del coeficiente de correlación
1) El coeficiente de correlación siempre se encuentra en el margen si-
guiente:
− 1 ≤ ρ ≤ 1. (11)
2) Si ρ se encuentra cerca de 1 o −1, decimos que hay una fuerte corre-
lación lineal entre X e Y .
3) Si, de media, Y aumenta cuando X aumenta: ρ > 0.
4) Si, de media, Y disminuye cuando X aumenta: ρ < 0.
Correlación cercana a 0
En caso de que el coeficiente
de correlación sea cercano a
0, esto se puede deber al
hecho de que no hay
correlación de ningún tipo o
bien a que la correlación que
hay es no lineal (por ejemplo,
cuadrática, cúbica, etc.).
Si ρ se encuentra cerca de 0, las variables presentan una correlación lineal débil
o no hay correlación lineal.
.
Definición 1.10. Si ρ = 0, decimos que las variables son linealmente
incorrelacionadas.
.
Relación entre independencia e incorrelación
Si X e Y son independientes, entonces Cov(X,Y ) = 0 y ρ = 0. La
implicación contraria, en general, no es cierta.
En efecto, suponemos que X e Y son independientes. El anterior resultado se
obtiene teniendo en cuenta (6) y calculando con (7) y (9):
E(XY ) =
∑
i
∑
j
aibjP (X=ai, Y =bj) =
∑
i
∑
j
aibjP (X=ai)P (Y =bj)
=
∑
i
aiP (X=ai)
∑
j
bjP (Y =bj) = E(X) E(Y ).
Entonces, Cov(X,Y ) = E(XY )− E(X) E(Y ) = 0.
CC-BY-NC-ND • PID 00253304 14 Vectores aleatorios
Notamos que, puesto que ρ = Cov(X,Y )σXσY , ρ = 0 ⇔ C(X,Y ) = 0.
Veamos un ejemplo en el que se aplican todos estos conceptos.
Ejemplo 1.3
Observad la figura 1. En la parte izquierda, hemos representado las 10 parejas de valores
(xi, yi) que toma un vector (X,Y ). En este caso, se obtiene un coeficiente de correlación
de 0,9. Puesto que se trata de un valor cercano a 1, las variables X e Y presentan una
correlación lineal fuerte: a medida que aumenta el valor de una, también aumenta el
valor de la otra. El hecho de que tengan una correlación lineal fuerte nos dice que los
valores (xi, yi) se encuentran cerca de una recta. La recta que hemos representado la
hemos obtenido por el método de los mı́nimos cuadrados. A pesar de que no es nuestro
propósito obtenerla, la hemos representado para observar mejor la correlación lineal.
En la figura de la derecha, hemos dado otro ejemplo en el que el comportamiento es
completamente distinto. En este otro caso, se obtiene un coeficiente de correlación de
0,25, prácticamente no hay correlación.
Figura 1
En la figura de la izquierda,
las parejas de puntos están
más correlacionadas que las
de la figura de la derecha.
Observad que la correlación
en el primer caso es de 0,9, y
en el segundo vale 0,25.
Figura 1. El coeficiente de correlación lineal del gráfico de la izquierda es 0,9,
y el del gráfico de la derecha, 0,25.
10
8
6
4
2
0
102 4 6 8
10
8
6
4
2
0
102 4 6 8
Véase también
En el apartado 2 de este
módulo, trataremos
conceptos parecidos a los que
hemos visto hasta ahora,
pero aplicados a vectores
aleatorios, en los que las
variables aleatorias serán
ahora continuas.
Ejemplo 1.4
Continuamos con el ejemplo 1.1, el del emisor binario, y calculamos ahora los parámetros
definidos anteriormente. Calculamos, en primer lugar, la esperanza del producto:
E(XY ) = 0 · 0 · P (X=0, Y =0) + 0 · 1 · P (X=0, Y =1) + 0 · 2 · P (X=0, Y =2) +
+ 1 · 0 · P (X=1, Y =0) + 1 · 1 · P (X = 1, Y =1) + 1 · 2 · P (X=1, Y =2) +
+ 2 · 0 · P (X=2, Y =0) + 2 · 1 · P (X=2, Y =1) + 2 · 2 · P (X=2, Y =2) =
= 0,4804 + 2 · 0,0098 + 2 · 0,0098 + 4 · 0,2401 = 1, 4.
A continuación, y a partir de la esperanza del producto y del producto de esperanzas,
como hemos visto en la definición 1.8, podemos calcular la covarianza:
Cov(X,Y ) = 1, 4− 1 · 1 = 0,4,
y el coeficiente de correlación:
ρ =
0,4
√
0,5
√
0,5
= 0,8.
CC-BY-NC-ND • PID 00253304 15 Vectores aleatorios
2. Vector aleatorio (X,Y ) con X e Y variables aleatorias
continuas
.
La estructura de este apartado es similar a la del anterior. En primer lugar,
definiremos qué entendemos por vector aleatorio de variables continuas. A con-
tinuación, definiremos las funciones de distribución y de densidad conjuntas.
También definiremos las funciones de densidad marginales. Observad que, en
este caso, hablamos de funciones de densidad, puesto que trataremos variables
aleatorias continuas. Como en el apartado anterior, veremos las probabilidades
condicionadas y cuándo las variables del vector son independientes. Acabare-
mos el apartado evaluando si dos variables aleatorias vaŕıan de manera similar
mediante la covarianza y el coeficiente de correlación.
.
Definición 2.1. Si X e Y son dos variables aleatorias continuas, se
denomina vector aleatorio continuo bidimensional al vector (X,Y ).
En general, dadas n variables aleatorias continuas, X1, X2, . . . , Xn, hay que
trabajar con el vector aleatorio continuo n-dimensional (X1, X2, . . . , Xn). En
este apartado, nos centraremos en el caso n = 2.
Véase también
En el módulo ((Variables
aleatorias)), vimos las
diferencias en el tratamiento
de las variables aleatorias
discretas y continuas. Estas
diferencias son válidas
también para el tratamiento
de vectores aleatorios
discretos y continuos.
Ya vimos en el tema de variables aleatorias que el tratamiento con variables
continuas es muy diferente que con variables discretas. Empezamos definiendo
las funciones de distribución conjunta y de densidad conjunta.
2.1. Función de distribución conjunta. Función de densidad
conjunta
Véase también
Recordad los conceptos de
función de distribución y de
densidad que vimos en el
subapartado 3.1 del módulo
((Variables aleatorias)).
.
Definición 2.2. La función de distribución conjunta, FXY , de las
variables continuas X e Y es una aplicación de R2 a [0, 1] definida por:
FXY (x, y) = P (X ≤ x, Y ≤ y) ∀(x, y) ∈ R2. (12)
Si FXY es continua y dos veces derivable, decimos que X e Y son con-
juntamente continuas. La función de densidad conjunta, fXY ,
es
fXY (x, y) =
∂2
∂x∂y
FXY (x, y). (13)
CC-BY-NC-ND • PID 00253304 16 Vectores aleatorios
En la anterior definición, FXY y fXY son funciones de dos variables, es decir,
definidas en R2. En este caso, podemos derivar respecto a una de las varia-
bles, manteniendo la otra constante, y obtenemos las operaciones de derivada
parcial. Dada una función f(x, y), podemos derivarla respecto a x: ∂f∂x , o deri-
varla respecto a y: ∂f∂y . Para obtener la densidad conjunta fXY , tenemos que
hacer una derivada seguida de la otra a la función de distribución conjunta:
∂2
∂x∂yFXY (x, y).
.
Propiedades de la función de densidad conjunta
1) La densidad conjunta es una función no negativa:
fXY (x, y) ≥ 0. (14)
2) Para cada conjunto A ⊂ R2:
P ((X,Y ) ∈ A) =
∫ ∫
A
fXY (x, y) dx dy. (15)
3) Cálculo de la función de distribución a partir de la función de densi-
dad:
FXY (x, y) =
∫ x
−∞
∫ y
−∞
fXY (u, v) du dv. (16)
4) Normalización de la densidad:
∫ ∞
−∞
∫ ∞
−∞
fXY (x, y) dx dy = 1. (17)
Probabilidad P (A)
En el caso de variables
aleatorias unidimensionales,
encontrábamos la
probabilidad mediante el área
por debajo
de la función de
densidad. Observad que aqúı
estamos tratando con
variables bidimensionales, y
por este motivo hablamos de
volumen por debajo de la
función de densidad conjunta
fXY (x, y).
La propiedad (15) se podŕıa considerar como la definición directa de la función
de densidad. En este caso, (16) se deduce teniendo en cuenta que FXY (x, y) es
la probabilidad de que −∞ < X ≤ x y −∞ < Y ≤ y. Del mismo modo, (17)
dice que la probabilidad de que X e Y tomen cualquier valor es 1. Notamos
que haciendo ∂
2
∂x∂yFXY (x, y) a partir de (16) da efectivamente fXY (x, y).
Generalizando, lo que vimos en una dimensión, la probabilidad P (A), en la que
A es un subconjunto de R2, es determinada por el volumen por debajo de la
función de densidad conjunta fXY (x, y) y que determina A (fórmula (15)).
CC-BY-NC-ND • PID 00253304 17 Vectores aleatorios
Ejemplo 2.1
Un vector aleatorio (X,Y ) tiene función de densidad:
fXY (x, y) =

K
(1 + x+ y)3
si x > 0, y > 0, x+ y < 1,
0 de otro modo.
donde K es una constante.
1) ¿Qué valor tiene la constante K?
2) ¿Cuál es la probabilidad de que Y > X?
3) ¿Cuál es la probabilidad de que X > 2Y ?
4) ¿Cuál es la probabilidad de que X + Y > 1
2
?
Notamos que la densidad está definida en un triángulo con vértice en los puntos (0, 0),
(1, 0) y (0, 1). Las integrales que calculamos se tienen que restringir a esta región. La
podemos describir diciendo que x vaŕıa entre 0 y 1 y que, para cada x, y vaŕıa entre 0 y
1− x.
1) K se determina imponiendo la condición de normalización (17):
1 =
∫ ∞
−∞
∫ ∞
−∞
fXY (x, y) dx dy =
∫ 1
0
(∫ 1−x
0
K
(1 + x+ y)3
dy
)
dx
= K
∫ 1
0
[
−
1
2(1 + x+ y)2
]y=1−x
y=0
dx = K
∫ 1
0
(
1
2(1 + x)2
−
1
8
)
dx
= K
[
−
1
2(1 + x)
−
x
8
]1
0
=
K
8
,
de donde K = 8.
2) Aplicamos (15). Tenemos que integrar la densidad sobre la región intersección entre
el triángulo donde está definido el vector (X,Y ) y el semiplano Y > X. Resulta
un triángulo con vértice (0, 0), (0, 1) y ( 1
2
, 1
2
) (este último es la intersección entre
x+ y = 1 y y = x). Esto restringe y entre x y 1− x, siempre que x esté entre 0 y 1
2
:
P (Y > X) =
∫ 1
2
0
(∫ 1−x
x
8
(1 + x+ y)3
dy
)
dx =
∫ 1
2
0
[
−
4
(1 + x+ y)2
]y=1−x
y=x
dx
=
∫ 1
2
0
(
4
(1 + 2x)2
− 1
)
dx =
[
−
2
1 + 2x
− x
] 1
2
0
=
1
2
,
3) El suceso X > 2Y corresponde al triángulo de vértice (0, 0), (1, 0) y ( 2
3
, 1
3
) (este
último es la intersección entre x + y = 1 y 2y = x). Ahora es más directo integrar
primero x entre 2y y 1− y, y después integrar y de 0 a 1
3
:
P (X > 2Y ) =
∫ 1
3
0
(∫ 1−y
2y
8
(1 + x+ y)3
dx
)
dy =
∫ 1
3
0
[
−
4
(1 + x+ y)2
]x=1−y
x=2y
dy
=
∫ 1
3
0
(
4
(1 + 3y)2
− 1
)
dy =
[
−
4
1 + 3y
− y
] 1
3
0
=
1
3
.
CC-BY-NC-ND • PID 00253304 18 Vectores aleatorios
4) En este caso, es más simple la región complementaria X + Y < 1
2
, consistente en el
triángulo de vértice (0, 0), ( 1
2
, 0) y (0, 1
2
). Aśı:
P
(
X + Y >
1
2
)
= 1− P
(
X + Y <
1
2
)
= 1−
∫ 1
2
0
(∫ 1
2
−x
0
8
(1 + x+ y)3
dy
)
dx
= 1−
∫ 1
2
0
[
−
4
(1 + x+ y)2
]y= 1
2
−x
y=0
dx = 1−
∫ 1
2
0
(
4
(1 + x)2
−
16
9
)
dx
= 1−
[
−
4
1 + x
−
16
9
x
] 1
2
0
=
5
9
.
En la figura 2, se muestran los tres sucesos.
Figura 2. Sucesos del ejemplo 2.1
1
1/2
1/2 1
y
Y>X
x
1
1/2
1/2 1
y
X+Y >1/2
x
1
2/3 1
y
X>2Y
x
1/3
A continuación, definiremos un tipo particular de vector aleatorio bidimensio-
nal.
.
Definición 2.3. Distribución uniforme. Decimos que el vector alea-
torio (X, Y ) se distribuye uniformemente en la región D ⊂ R2 si la
función de densidad conjunta es:
fXY (x, y) =

1
àrea(D)
si (x, y) ∈ D
0 de otro modo
(18)
Es decir, para todos los puntos x e y que se encuentran dentro del dominio de
definición de la variable aleatoria uniforme, el valor de fXY (x, y) es constante.
En este caso, el cálculo de volúmenes por debajo de la función de densidad
puede no requerir la utilización de las integrales dobles, como veremos en el
ejemplo 2.4.
De manera intuitiva, podemos ver que si tenemos dos regiones dentro del área
D con la misma área, las dos tienen la misma probabilidad.
En la figura 3, podéis ver un ejemplo de ello. En este caso, la región D es
rectangular.
CC-BY-NC-ND • PID 00253304 19 Vectores aleatorios
Figura 3. Representación gráfica de fXY (x, y) para el caso uniforme
1
2
y
x
f x y
área DXY
( , ) 
( )
=
1
2.2. Funciones de densidad marginales
En este subapartado, veremos cómo se pueden calcular las funciones de densi-
dad marginales. Recordad que para el caso de las variables discretas, tal y como
hemos visto en el subapartado 1.1, las funciones de probabilidad marginales las
obteńıamos para un cierto valor de una de las variables del vector y haciendo el
sumatorio para todos los casos de la otra variable aleatoria. Aqúı aplicaremos
la misma idea, pero sustituyendo los sumatorios por integrales.
.
Definición 2.4. Funciones de densidad marginales
Densidad marginal de X : fijado un valor de x, integramos para todos
los valores posibles de y:
fX(x) =
∫ ∞
−∞
f(x, y) dy. (19)
Densidad marginal de Y : fijado un valor de y, integramos para todos
los valores posibles de x:
fY (y) =
∫ ∞
−∞
f(x, y) dx. (20)
CC-BY-NC-ND • PID 00253304 20 Vectores aleatorios
A partir de las expresiones anteriores, podemos encontrar los parámetros que
caracterizan a cada una de las variables: la esperanza, el momento de orden 2
y la varianza para cada una de las variables del vector.
*Véase el subapartado 3.3 del
módulo ((Variables aleatorias)).
La definición de estos parámetros es la misma que hab́ıamos hecho para el
caso unidimensional.* En este caso, sin embargo, utilizamos las funciones de
densidad marginales:
• Esperanza de X y esperanza de Y :
E(X) =
∫ ∞
−∞
x fX(x) dx, E(Y ) =
∫ ∞
−∞
y fY (y) dy.
• Momentos de orden 2:
E(X2) =
∫ ∞
−∞
x2 fX(x) dx, E(Y
2) =
∫ ∞
−∞
y2 fY (y) dy.
• Varianza de X y varianza de Y :
σ2X = E(X
2)− E(X)2, σ2Y = E(Y 2)− E(Y )2.
2.3. Funciones de densidad condicionadas.
Variables independientes
En este subapartado, veremos cuándo las dos variables aleatorias de nuestro
vector son independientes o, al contrario, cuándo el resultado de una nos
da alguna pista sobre la otra. En este segundo caso, hablamos de densidad
condicionada.
.
Definición 2.5. Las variables continuas X e Y son independientes si
y solo si:
fXY (x, y) = fX(x)fY (y), ∀x, y. (21)
Es decir, X e Y son independientes si la función de densidad conjunta es igual
al producto de las funciones de densidad marginales, y viceversa.
CC-BY-NC-ND • PID 00253304 21 Vectores aleatorios
Observación
Observad que si las variables
son independientes, las
densidades condicionadas:
f(x | y) = fX (x)fY (y)
fY (y)
=
fX(x),
f(y |x) = fY (y).
.
Definición 2.6. Funciones de densidad condicionadas
Se define la función de densidad de X condicionada a Y = y
como:
f(x | y) = fXY (x, y)
fY (y)
. (22)
De manera análoga, la función de densidad de Y condicionada a
X = x como:
f(y |x) = fXY (x, y)
fX(x)
. (23)
Ahora veremos algunos ejemplos para aclarar todos estos conceptos.
Ejemplo 2.2
Una señal de comunicación empieza en el instante X y acaba en el instante Y , dados por
el vector aleatorio (X,Y ) con función de densidad:
fXY (x, y) =

e−y si 0 < x < y,
0 de otro modo.
1) Calculamos las probabilidades de los siguientes sucesos:
A = ((La duración de la señal es inferior a 2)).
B = ((En t=2 la señal es activa)).
C = ((En t=2 la señal ya ha empezado y en t = 1 todav́ıa no ha acabado)).
Notamos que A equivale a Y −X < 2, B equivale a X < 2, Y > 2 y C equivale a
X<2, Y >1.
Para A, la región es 0 < x <∞ y x < y < x+ 2:
P (A) =
∫ ∞
0
(∫ x+2
x
e−ydy
)
dx =
∫ ∞
0
(e−x−e−x−2)dx = (1−e−2)
∫ ∞
0
e−xdx = 1−e−2.
Para B, la región es 0 < x < 2 y 2 < y <∞:
P (B) =
∫ 2
0
(∫ ∞
2
e−ydy
)
dx =
∫ 2
0
e−2dx = 2e−2.
Para C, la región tiene dos partes. Si 0 < x < 1, entonces 1 < y <∞. Si 1 < x < 2,
entonces x < y <∞:
P (C) =
∫ 1
0
(∫ ∞
1
e−ydy
)
dx+
∫ 2
1
(∫ ∞
x
e−ydy
)
dx
=
∫ 1
0
e−1dx+
∫ 2
1
e−xdx = e−1 + (e−1 − e−2) = 2e−1 − e−2.
CC-BY-NC-ND • PID 00253304 22 Vectores aleatorios
2) Calculamos las funciones de densidad condicionadas f(x | y) y f(x | y).
Necesitamos primero las funciones de densidad marginales:
Si x > 0
fX(x) =
∫ ∞
−∞
f(x, y) dy =
∫ ∞
x
e−y dy = [−e−y ]∞x = e−x.
Si y > 0
fY (y) =
∫ ∞
−∞
f(x, y) dx =
∫ y
0
e−y dx = e−y [x]y0 = ye
−y .
Aśı: fX(x) =

e−x si x > 0,
0 de otro modo,
fY (y) =

ye−y si y > 0,
0 de otro modo.
Ahora calculamos: Dado y > 0, si 0 < x < y:
f(x | y) =
fXY (x, y)
fY (y)
=
e−y
ye−y
=
1
y
.
Dado x > 0, si x < y <∞:
f(y |x) =
fXY (x, y)
fX(x)
=
e−y
e−x
= e−(y−x).
Aśı: f(x | y) =

1
y
si 0 < x < y,
0 de otro modo,
f(y |x) =

e−(y−x) si x < y <∞,
0 de otro modo.
3) Si la señal acaba en el instante t = 4, ¿cuál es la probabilidad de que en el instante
t = 1 todav́ıa no hubiera empezado?
Tenemos como condición Y = 4 y como suceso X > 1, aśı que utilizaremos la densidad
de X condicionada a Y :
f(x |Y = 4) =
1
4
, 0 < x < 4.
La probabilidad pedida es:
P (X > 1 |Y = 4) =
∫ 4
1
1
4
dx =
3
4
.
Ejemplo 2.3
La señal de entrada, X (voltios), en un canal de comunicaciones, se encuentra distribuida
uniformemente en el intervalo [−2, 2]. La señal de salida, Y (voltios), es la suma de la
señal de entrada más un ruido que se encuentra uniformemente distribuido en el intervalo
[−3, 3]. Calculamos las probabilidades condicionadas P (Y ≤ 0 |X = 1), P (Y ≤ y |X = 1)
y P (Y ≤ y |X = x). Es decir, ¿cuál es la probabilidad de que la señal de salida sea menor
o igual que cero sabiendo que la señal de entrada es igual a 1 V? ¿Cuál es la probabilidad
de cualquier valor de la señal de salida y, sabiendo que la señal de entrada es 1 V? Y
finalmente, de manera más genérica, ¿cuál es esta probabilidad para cualquier valor x de
la señal de entrada?
CC-BY-NC-ND • PID 00253304 23 Vectores aleatorios
Si la señal de entrada es x, entonces dado un valor cualquiera de x, la señal de salida, y,
podrá tomar un valor dentro del margen [−3, 3] centrado en el valor de x concreto. Es
decir, la variable Y se distribuye uniformemente en [x− 3, x+ 3]. Por ejemplo, si la señal
de entrada es de un voltio, X = 1, entonces Y se distribuye uniformemente en [−2, 4].
Calculamos ahora la probabilidad condicionada: P (Y ≤ 0 |X = 1) = 2
6
. ¿Cómo hemos
hecho este cálculo? Observad que Y ≤ 0 para el intervalo [−2, 0] respecto al intervalo
total [−2, 4].
Ahora responderemos la segunda cuestión: P (Y ≤ y |X = 1) = y+2
6
, para −2 < y < 4.
Observad que, en este caso, hemos tomado todo el intervalo de valores posibles para la
variable Y sabiendo que X toma un valor igual a 1.
El caso más general, P (Y ≤ y |X = x) = y−x+3
6
, para x− 3 < y < x+ 3. Observad que
aqúı hemos expresado la variable Y en función de los valores posibles de X.
2.4. Relación entre variables aleatorias continuas: covarianza
y coeficiente de correlación
Definimos los mismos parámetros que hemos visto para vectores discretos como
en el caso de las variables aleatorias unidimensionales. Ahora los sumatorios se
harán integrales.
.
Definición 2.7.
Esperanza del producto:
E(XY ) =
∫ ∞
−∞
∫ ∞
−∞
xyfXY (x, y) dx dy. (24)
Covarianza:
Cov(X,Y ) = E[(X − E(X))(Y − E(Y ))] (25)
=
∫ ∞
−∞
∫ ∞
−∞
(x− E(X))(y − E(Y ))fXY (x, y) dx dy.
Al igual que en el caso discreto, se obtiene la propiedad:
Cov(X,Y ) = E(XY )− E(X) E(Y ). (26)
Coeficiente de correlación:
ρ =
Cov(X,Y )
σXσY
. (27)
CC-BY-NC-ND • PID 00253304 24 Vectores aleatorios
Como en el caso de variables aleatorias discretas, el parámetro covarianza da
información sobre la relación lineal entre X e Y , es decir, si las variables crecen
de manera conjunta o no. Para dar una información más significativa hay que
normalizar la covarianza, y por eso definimos el coeficiente de correlación.
Observación
Observad las propiedades de
la covarianza y del
coeficiente de correlación
para los casos de las variables
discretas y continuas, y
observad que son idénticas.
.
Propiedades de la covarianza y del coeficiente de correlación
1) −1 ≤ ρ ≤ 1.
2) Si ρ se encuentra cerca de 1 o −1, decimos que hay una fuerte corre-
lación lineal entre X e Y .
3) Si X e Y aumentan o disminuyen conjuntamente, ρ > 0.
4) Si una de las variables aumenta al disminuir la otra (o al revés), ρ < 0.
5) Si ρ se encuentra cerca de 0, las variables presentan una correlación
lineal débil o no hay correlación lineal. En el caso particular de ρ = 0,
decimos que las variables son linealmente incorrelacionadas (podŕıa
haber otro tipo de tipo de correlación no lineal).
6) Si X e Y son independientes, entonces Cov(X,Y ) = 0 y ρ = 0. La
implicación contraria, en general, no es cierta.
Ejemplo 2.4
(X,Y ) es un vector aleatorio bidimensional uniforme en la región limitada por el triángulo,
T , de lados sobre las rectas y = 0, x = 3 e y = x. Lo podéis ver en la figura 4.
Figura 4
Observad cómo
determinamos el dominio
donde están definidas las
variables x e y y la densidad
uniforme dentro de este
dominio.
Figura 4. Densidad uniforme en el dominio T
x
y
x
y
fxy(x,y) =
2
9
CC-BY-NC-ND • PID 00253304 25 Vectores aleatorios
1) Encontramos la función de densidad conjunta, funciones de densidad marginales y el
valor esperado de cada una de las variables. ¿Las variables X e Y son independientes?
Área del triángulo
El área del triángulo es el
producto de la base y la
altura, dividido entre dos. En
este caso: 3·3
2
.
Dado que la distribución es uniforme,
fXY (x, y) =

1
área triángulo
= 2
9
si (x, y) ∈ T ,
0 de otro modo.
Calculamos la densidad marginal de X:
fX(x) =
∫ ∞
−∞
fXY (x, y) dy =

∫ x
0
2
9
dy = 2
9
x si x ∈ [0, 3],
0 de otro modo.
Observad los ĺımites de integración. Si tomamos un valor cualquiera de x (lo podéis
comprobar sobre la figura 4, haciendo una recta vertical sobre el triángulo), la y se
encuentra entre cero y la recta x = y.
Calculamos ahora la densidad marginal de Y :
fY (y) =
∫ ∞
−∞
fXY (x, y) dx =

∫ 3
y
2
9
dx = 2
9
(3− y) si y ∈ [0, 3],
0 de otro modo.
En este caso, fijamos un valor cualquiera de y trazando una recta horizontal sobre el
triángulo. Observad que x se encuentra entre las rectas x = y y x = 3, que son los
valores que nos definen los ĺımites de integración.
Ĺımites de integración
Observad que ahora tomamos
como ĺımites de integración
todo el intervalo de variación
de las variables aleatorias
[0, 3], a diferencia de cuando
hemos calculado las
densidades marginales para
cada una de las variables.
Valor esperado de X:
E(X) =
∫ ∞
−∞
x fX(x) dx =
2
9
∫ 3
0
x2 dx =
2
9
·
33
3
= 2.
Valor esperado de Y :
E(Y ) =
∫ ∞
−∞
y fY (y) dy =
2
9
∫ 3
0
(3− y)y dy =
2
9
(
33
2
−
33
3
)
= 1.
Las variables no son independientes porque: fXY (x, y) 6= fX(x)fY (y).
2) Encontramos el coeficiente de correlación.
Momento de orden 2 de X:
E(X2) =
∫ ∞
−∞
x2 fX(x) dx =
2
9
.
∫ 3
0
x3 dx =
2
9
·
34
4
=
9
2
.
Momento de orden 2 de Y :
E(Y 2) =
∫ ∞
−∞
y2 fY (y) dy =
2
9
∫ 3
0
(3− y)y2 dy =
2
9
·
(
33 −
34
4
)
=
3
2
.
CC-BY-NC-ND • PID 00253304 26 Vectores aleatorios
Varianza de X y σX :
Var(X) = E(X2)− E(X)2 =
9
2
− 4 =
1
2
, σX =
√
1
2
.
Varianza de Y y σY :
Var(Y ) = E(Y 2)− E(Y )2 =
3
2
− 1 =
1
2
, σY =
√
1
2
.
Esperanza del producto:
E(XY ) =
∫ ∞
−∞
∫ ∞
−∞
x y fXY (x, y) dx dy
=
2
9
∫ 3
x=0
∫ x
y=0
x y dy dx =
2
9
∫ 3
x=0
x3
2
dx =
2
9
·
34
8
=
9
4
.
Covarianza y coeficiente de correlación:
Cov(X,Y ) = E(XY )− E(X) E(Y ) =
9
4
− 2 · 1 =
1
4
, ρ =
1
4√
1
2
√
1
2
=
1
2
.
3) Encontramos las probabilidades: P (X < 1
2
), P (Y < 1
2
) y P (XY < 1
4
):
P
(
X <
1
2
)
=
∫ 1
2
0
2
9
x dx =
1
36
.
Representamos el volumen que determina la zona del triángulo donde x < 1
2
(figura 5):
P
(
Y <
1
2
)
=
∫ 1
2
0
2
9
(3− y) dy =
11
36
.
Representamos el volumen que determina la zona del triángulo donde y < 1
2
(figura 5):
P
(
XY <
1
4
)
=
∫ 1
2
x=0
∫ x
y=0
2
9
dy dx+
∫ 3
1
2
∫ 1
4x
y=0
2
9
dy dx
=
2
9
∫ 1
2
0
x dx+
2
9
∫ 3
1
2
1
4x
dx =
1
36
+
ln 3 + ln 2
18
= 0,127.
En la figura 5, mostramos la zona del triángulo donde xy < 1
4
y el volumen que
genera.
CC-BY-NC-ND • PID 00253304 27 Vectores aleatorios
Figura 5
La zona del triángulo donde
definimos las variables
aleatorias genera un volumen
determinado.
Figura 5. Función de densidad uniforme en el triángulo T
x
y
x
y
f (x,y) =
2
9
y =
1
4x y =
1
4x
CC-BY-NC-ND • PID 00253304 28 Vectores aleatorios
Resumen
En este módulo, hemos visto los vectores aleatorios. Estos pueden ser discretos
(apartado 1 del módulo) o continuos (apartado 2 del módulo).
Dadas X e Y dos variables aleatorias discretas, podemos definir un vector alea-
torio discreto, (X,Y ). De este vector aleatorio hemos definido la probabilidad
conjunta y la probabilidad marginal:
• Probabilidades conjuntas: P (X=ai, Y = bj) = P ({X=ai} ∩ {Y = bj}).
• Probabilidad marginal de X (de manera análoga, podŕıamos definir la de
Y ):
P (X=ai) =
∑m
j=1 P (X=ai, Y =bj).
También hemos visto el concepto de probabilidad condicionada:
P (X=ai |Y =bj) =
P (X=ai, Y =bj)
P (Y =bj)
.
Y hemos definido el concepto de independencia. Hemos visto que X e Y son
independientes si y solo si: P (X=ai, Y =bj) = P (X=ai)P (Y =bj) para todo
i, j.
Para finalizar, hemos aprendido a medir el grado de similitud de las variables
aleatorias que forman el vector mediante los conceptos siguientes:
• Esperanza del producto: E(XY ) =
∑
i
∑
j aibjP (X=ai, Y =bj).
• Covarianza: Cov(X,Y ) = E[(X−E(X))(Y−E(Y ))] = E(XY )−E(X) E(Y ).
• Coeficiente de correlación lineal de Pearson: ρ = Cov(X,Y )σXσY .
El apartado 2 de este módulo lo hemos dedicado a los vectores aleatorios bidi-
mensionales continuos. Concretamente, si X e Y son variables aleatorias con-
tinuas, podemos definir el vector aleatorio continuo (X,Y ), y hemos visto los
conceptos asociados siguientes:
• Función de distribución conjunta: FXY (x, y) = P (X ≤ x, Y ≤ y) ∀(x, y) ∈
R2.
• Función de densidad conjunta: si FXY es dos veces derivable, la fXY ,
es fXY (x, y) =
∂2
∂x∂yFXY (x, y).
• Densidad marginal de X : fX(x) =
∫∞
−∞ f(x, y) dy. (De manera análoga,
podemos definir la densidad marginal de Y .)
CC-BY-NC-ND • PID 00253304 29 Vectores aleatorios
• Densidad de X condicionada a Y = y: f(x | y) = fXY (x,y)fY (y) . (De manera
análoga, podemos definir la densidad de Y condicionada a X = x.)
• Esperanza del producto: E(XY ) =
∫∞
−∞
∫∞
−∞ xyfXY (x, y) dx dy.
• Covarianza: Cov(X,Y ) = E[(X−E(X))(Y−E(Y ))] = E(XY )−E(X) E(Y ).
• Coeficiente de correlación: ρ = Cov(X,Y )σXσY .
CC-BY-NC-ND • PID 00253304 30 Vectores aleatorios
Actividades
1. Disponemos de un canal de comunicaciones que caracterizamos con las variables aleatorias
X y Y , la velocidad de transmisión del canal y la proporción de errores que introduce el canal,
respectivamente. La función de densidad conjunta del vector aleatorio (X,Y ) está expresada
en función de una constante k:
fXY (x, y) =

k(x+ y) si 0 < x < 2, 0 < y < 2
0 de otro modo
a) Encontrad el valor de k.
Pista: de manera análoga a como suced́ıa en el caso de funciones de densidad de una variable
aleatoria, el volumen total determinado por la función de densidad conjunta R2 tiene que
valer 1 -fórmula (17).
b) Encontrad las funciones de densidad marginales de X e Y .
c) Determinad si X e Y son independientes.
2. Para el vector aleatorio (X,Y ) del problema anterior:
a) Encontrad las funciones de densidad condicional f(x | y) y f(y |x).
b) Encontrad P
(
0 < Y < 1
2
|X = 1
)
.
3. Dada una señal acústica que representamos mediante la variable aleatoria X, la introduci-
mos en un amplificador que genera una nueva variable aleatoria Y = aX+b (a y b constantes,
a distinta de cero). Se pide:
a) Encontrad la covarianza de X e Y y expresadla en términos de σ2X , la varianza de X.
Pista: recordad que la esperanza es un operador lineal.
b) Utilizando el hecho de que Var(Y ) = Var(aX + b) = a2 Var(X), encontrad* el coeficiente
de correlación de X e Y .
* Atención: durante los cálculos,
recordad que una desviación
t́ıpica siempre es positiva,
mientras que la constante a
podŕıa ser positiva o negativa.
4. La función de densidad conjunta de un vector aleatorio (X,Y ) es:
fXY (x, y) =

6y si 0 < y < x < 1
0 de otro modo
a) Encontrad la función de densidad marginal fX(x).
b) Encontrad la función de densidad condicional f(y |x).
c) Calculad el valor esperado condicional correspondiente, es decir, E(Y |X = x).
5. La función de probabilidad conjunta de dos señales digitales que se representan mediante
un vector aleatorio (X,Y ) es:
PXY (x, y) =

0,45 si x = 0, y = 0
0,1 si x = 1, y = 0
0,05 si x = 0, y = 1
0,4 si x = 1, y = 1
0 de otro modo
a) Calculad las funciones de probabilidad marginal de X y de Y .
CC-BY-NC-ND • PID 00253304 31 Vectores aleatorios
b) Encontrad el valor medio y la varianza de X. Lo mismo para Y .
c) Encontrad la covarianza y el coeficiente de correlación de X e Y .
6. Probad que no pueden existir dos variables aleatorias X e Y para las cuales E(X) = 3,
E(Y ) = 2, E(X2) = 10, E(Y 2) = 29 y E(XY ) = 0
Pista: haced la prueba por reducción al absurdo, es decir, suponed que es cierto lo que dice
el enunciado y tratad de buscar una contradicción.
7. Considerad el canal de comunicación que se muestra abajo. Sea (X,Y ) un vector aleatorio,
en el que X es la entrada del canal e Y es la salida. Sabemos que P (X = 0) = 0,5, P (Y =
1 |X=0) = 0,1, y que P (Y =0 |X=1) = 0,2. Se pide:
0
1
X
0
1
Y
P(Y = 0| X = 0)
P(Y = 1| X = 0)
P(
Y =
 0
| X
 =
 1
)
P(Y = 1| X = 1)
a) Encontrad la función de probabilidad conjunta PXY (x, y).
b) Encontrad las funciones de probabilidad marginales PX(x) y PY (y).
c) ¿Son X e Y independientes?
8. La función de distribución conjunta de un vector aleatorio (X,Y ) está determinada por:
FXY (x, y) =

y+e−x(y+1)
y+1
− e−x si x, y > 0
0 de otro modo
Encontrad la función de densidad conjunta, fXY (x, y), y utilizad un software (por ejemplo,
Wiris)
para representarla gráficamente.
9. La función de densidad conjunta de un vector aleatorio (X,Y ) está determinada por:
fXY (x, y) =

2 si 0 < y < x < 1
0 de otro modo
a) Encontrad las funciones de densidad marginales de X e Y .
b) Encontrad las funciones de densidad condicional f(x | y) y f(y |x).
10. En un servidor que procesa peticiones de cliente, definimos dos tiempos de espera: X1,
que es el tiempo de espera de la petición a la cola del servidor, y X2, que es el tiempo que el
servidor emplea en procesar la petición.
CC-BY-NC-ND • PID 00253304 32 Vectores aleatorios
Las variables aleatorias X1 y X2 tienen la función de densidad conjunta siguiente:
fX1X2 (x1, x2) =

e−(x1+x2) si 0 < x1 <∞, 0 < x2 <∞
0 de otro modo
Calculad:
a) Probabilidad de que la petición esté más de una hora en el sistema (tiempo a la cola más
tiempo de procesamiento).
b) Las densidades marginales de X1 y X2.
c) ¿Son independientes X1 y X2?
d) La probabilidad de que la petición pase más de una hora esperando en la cola.
CC-BY-NC-ND • PID 00253304 33 Vectores aleatorios
Solucionario
1.
a)
1 =
∫ ∞
−∞
∫ ∞
−∞
fXY (x, y)dxdy = k
∫ 2
0
∫ 2
0
(x+ y)dxdy
= k
∫ 2
0
[
x2
2
+ xy
]x=2
x=0
dy = k
∫ 2
0
(2 + 2y)dy = 8k ⇒ k =
1
8
.
b) La función de densidad marginal de X es:
fX(x) =
∫ ∞
−∞
fXY (x, y)dy =
1
8
∫ 2
0
(x+y)dy =
1
8
[
xy +
y2
2
]y=2
y=0
=

1
4
(x+ 1) 0 < x < 2
0 de otro modo
De manera análoga, la función de densidad marginal de Y es:
fY (y) =
∫ ∞
−∞
fXY (x, y)dy =
1
8
∫ 2
0
(x+y)dy =
1
8
[
xy +
y2
2
]y=2
y=0
=

1
4
(y + 1) 0 < y < 2
0 de otro modo
c) X e Y no son independientes, puesto que: fXY (x, y) 6= fX(x)fY (y) ( 18 (x + y) 6=
1
4
(x +
1) · 1
4
(y + 1)).
2.
a)
f(y |x) =
1
8
(x+ y)
1
4
(x+ 1)
=
x+ y
2(x+ 1)
, 0 < y < 2, 0 < x < 2.
f(x | y) =
1
8
(x+ y)
1
4
(y + 1)
=
x+ y
2(y + 1)
, 0 < x < 2, 0 < y < 2.
b) La probabilidad pedida es:
P
(
0 < Y <
1
2
|X = 1
)
=
∫ 1/2
0
f(y |x = 1)dy =
∫ 1/2
0
1 + y
4
dy =
5
32
.
CC-BY-NC-ND • PID 00253304 34 Vectores aleatorios
3.
a) Notad que:
E(XY ) = E [X(aX + b)] = aE(X2) + bE(X).
E(Y ) = E(aX + b) = aE(X) + b.
Por lo tanto,
Cov(X,Y ) = E(XY )− E(X) E(Y ) = aE(X2) + bE(X)− E(X)(aE(X) + b)
= a(E(X2)− E(X)2) = aVar(X) = aσ2X .
b) Notad que:* σ2Y = a
2σ2X ⇒ σY = |a|σX .
*Véase el ejemplo 3.2 del módulo
((Funciones de variables
aleatorias)).El coeficiente de correlación de X e Y es:
ρ =
Cov(X,Y )
σXσY
=
aσ2X
σX · |a|σX
=
a
|a|
=

1 a > 0
−1 a < 0
4.
a)
fX(x) =
∫ ∞
−∞
fXY (x, y)dy =
∫ x
0
6ydy = 3x2.
fX(x) =

3x2 0 < x < 1
0 de otro modo
b)
f(y |x) =
fXY (x, y)
fX(x)
=

2 y
x2
0 < y < x < 1
0 de otro modo
c) El valor pedido es:
E(Y |X = x) =
∫ ∞
−∞
yf(y |x)dy =
1
x2
∫ x
0
2y2dy =
2
3
x.
CC-BY-NC-ND • PID 00253304 35 Vectores aleatorios
5.
a) Probabilidad marginal de X:
P (X=0) = PXY (0, 0) + PXY (0, 1) = 0,5, P (X=1) = PXY (1, 0) + PXY (1, 1) = 0,5.
Probabilidad marginal de Y :
P (Y =0) = PXY (0, 0) + PXY (1, 0) = 0,55, P (Y =1) = PXY (0, 1) + PXY (1, 1) = 0,45.
b)
E(X) =
∑
i
xiP (X=xi) = 0 · 0,5 + 1 · 0,5 = 0,5.
E(X2) =
∑
i
x2iP (X=xi) = 0
2 · 0,5 + 12 · 0,5 = 0,5.
Var(X) = E(X2)− E(X)2 = 0,5− 0,52 = 0,25.
Análogamente, se obtiene:
E(Y ) = 0,45, Var(Y ) = 0,2475.
c)
E(XY ) =
∑
i
∑
j
xiyjPXY (xi, yj) = 0 · 0 · 0,45 + 0 · 1 · 0,05 + 1 · 0 · 0,1 + 1 · 1 · 0,4 = 0,4.
Cov(X,Y ) = E(XY )− E(X) E(Y ) = 0,4− 0,5 · 0,45 = 0,175.
ρ =
Cov(X,Y )
σXσY
=
0,175
√
0,25 · 0,2475
= 0,704.
6. Si suponemos que se satisfacen todas las condiciones del enunciado, entonces:
Cov(X,Y ) = E(XY )− E(X) E(Y ) = 0− 3 · 2 = −6
Var(X) = E(X2)− E(X)2 = 10− 9 = 1 =⇒ σX = 1.
Var(Y ) = E(Y 2)− E(Y )2 = 29− 4 = 25 =⇒ σY = 5.
ρ =
Cov(X,Y )
σXσY
=
−6
1 · 5
= −
6
5
< −1.
Contradicción, puesto que tiene que ser −1 ≤ ρ ≤ 1.
CC-BY-NC-ND • PID 00253304 36 Vectores aleatorios
Por lo tanto, no se pueden dar a la vez todas las condiciones del enunciado.
7.
a) Notad que P (X=1) = 0,5, P (Y =0 |X = 0) = 0,9 y . P (Y =1 |X = 1) = 0,8
Por lo tanto:
PXY (0, 0) = P (X=0, Y =0) = P (Y =0 |X = 0)P (X = 0) = 0,45.
PXY (0, 1) = P (X=0, Y =1) = P (Y =1 |X=0)P (X=0) = 0,05.
PXY (1, 0) = P (X=1, Y =0) = P (Y =0 |X = 1)P (X=1) = 0,10.
PXY (1, 1) = P (X=1, Y =1) = P (Y =1 |X = 1)P (X=1) = 0,40.
b) Las funciones de probabilidad marginales son:
Marginal de X:
PX(0) = P (X=0) = PXY (0, 0) + PXY (0, 1) = 0,5.
PX(1) = P (X=1) = PXY (1, 0) + PXY (1, 1) = 0,5.
Marginal de Y :
PY (0) = P (Y =0) = PXY (0, 0) + PXY (1, 0) = 0,55.
PY (1) = P (Y =1) = PXY (0, 1) + PXY (1, 1) = 0,45.
c) X e Y no son independientes, puesto que PXY (0, 0) = 0,45 6= PX(0)PY (0) = 0,275.
8. Para x, y > 0, se tiene que:
fXY (x, y) =
∂2FXY
∂x∂y
(x, y) =
∂
∂y
(
∂FXY
∂x
(x, y)
)
=
∂
∂y
(e−x − e−x(y+1)) = xe−x(y+1).
Entonces: fXY (x, y) =

xe−x(y+1) x, y > 0
0 de otro modo
A continuación, se muestra la gráfica de la función de densidad conjunta desde diferentes
perspectivas:
9.
CC-BY-NC-ND • PID 00253304 37 Vectores aleatorios
a) Si 0 < x < 1 entonces fX(x) =
∫ x
0 2dy = 2x. Por lo tanto: fX(x) =

2x 0 < x < 1
0 de otro modo
Si 0 < y < 1 entonces fY (y) =
∫ 1
y 2dx = 2(1−y). Por lo tanto: fY (y) =

2(1− y) 0 < y < 1
0 de otro modo
b) Si 0 < y < x < 1 entonces f(y |x) = fXY (x,y)
fX (x)
= 2
2x
= 1
x
. Por lo tanto: f(y |x) =
1
x
0 < y < x < 1
0 de otro modo
Si 0 < y < x < 1 entonces f(x | y) = fXY (x,y)
fY (y)
= 1
1−y . Por lo tanto: f(x | y) =

1
1−y 0 < y < x < 1
0 de otro modo
10.
a) Calculamos la probabilidad de que el tiempo de espera total no supere 1 hora, es decir,
X1 +X2 > 1.
P (X1 +X2 > 1) = 1− P (X1 +X2 < 1) = 1−
∫ 1
0
(∫ 1−x1
0
e−(x1+x2)dx2
)
dx1
1−
∫ 1
0
e−x1 (1− e−(1−x1))dx1 = 1−
∫ 1
0
(e−x1 − e−1)dx1
1− [−e−x1 − e−1x1]10 = 2e−1.
b) Las funciones de densidad marginales son las siguientes:
fX1 (x1) =
∫ ∞
0
e−(x1+x2)dx2 = e
−x1
∫ ∞
0
e−x2dx2 = e
−x1 , x1 > 0.
Análogamente, para x2:
fX2 (x2) =
∫ ∞
0
e−(x1+x2)dx1 = e
−x2
∫ ∞
0
e−x1dx2 = e
−x2 , x2 > 0.
c) X1 y X2 son independientes puesto que, para x1 > 0, x2 > 0:
fX1X2 (x1, x2) = e
−(x1+x2) = fX1 (x1)fX2 (x2) = e
−x1e−x2 .
d) La probabilidad de que el tiempo de espera en la cola sea mayor que una hora es:
P (X1 > 1) =
∫ ∞
1
e−x1dx1 = e
−1.
			Introducción
			Objetivos
			Vector aleatorio (X,Y) con X e Y variables aleatorias discretas
			Probabilidad conjunta. Probabilidad marginal
			Funciones de probabilidad condicionadas. Independencia de variables aleatorias
			Relación entre variables aleatorias discretas: covarianza y coeficiente de correlación
			Vector aleatorio (X,Y) con X e Y variables aleatorias continuas
			Función de distribución conjunta. Función de densidad conjunta
			Funciones de densidad marginales
			Funciones de densidad condicionadas. Variables independientes
			Relación entre variables aleatorias continuas: covarianza y coeficiente de correlación
			Resumen
			Actividades
			Solucionario
modulo5.pdf
Introducción 
a los procesos 
estocásticos
PID_00253300
Josep Maria Aroca
Tiempo mínimo de dedicación recomendado: 2 horas
Los textos e imágenes publicados en esta obra están sujetos -salvo que se indique lo contrario-
a una licencia de Reconocimiento-NoComercial-SinObraDerivada (BY-NC-ND) v.3.0 España de
Creative Commons. Podéis copiarlos, distribuirlos
y transmitirlos públicamente siempre que citéis
al autor y la fuente (FUOC. Fundación para la Universitat Oberta de Catalunya), no hagáis un
uso comercial de ellos y no hagáis obra derivada. La licencia completa se puede consultar en
http: // creativecommons. org/ licenses/ by-nc-nd/ 3. 0/ es/ legalcode. es .
http://creativecommons.org/licenses/by-nc-nd/3.0/es/legalcode.es
CC-BY-NC-ND • PID 00253300 Introducción a los procesos estocásticos
Índice
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1. Definición de proceso estocástico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2. Procesos a tiempo continuo y a tiempo discreto . . . . . . . . . . . . . . 15
3. Procesos de estado continuo y de estado discreto . . . . . . . . . . . . 17
4. Ejemplos de procesos estocásticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.1. Procesos representables expĺıcitamente en términos
de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.2. Procesos con infinitos grados de libertad aleatorios . . . . . . . . . . . . 20
Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Actividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Solucionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
CC-BY-NC-ND • PID 00253300 5 Introducción a los procesos estocásticos
Introducción
Hasta ahora, hemos visto qué son las variables aleatorias discretas y continuas.
También hemos generado variables aleatorias a partir de una variable aleatoria
original que hemos transformado mediante una función para obtener una nueva,
de forma que la nueva variable se puede expresar como Y = g(X). Finalmente,
hemos estudiado el concepto de vector aleatorio, que nos permite tratar dife-
rentes variables aleatorias al mismo tiempo. En todos estos casos, hemos visto
cómo podemos asignar uno o más números a una determinada experiencia, y
cómo este número puede variar cada vez que hacemos la experiencia.
Muchas veces, necesitamos tratar una variable aleatoria de manera más comple-
ja. Imaginad, por ejemplo, que tenemos una aplicación que hace una predicción
meteorológica. Para hacer esta predicción, necesitamos disponer de medidas de
presión y de temperatura en diferentes puntos del espacio. Si dibujamos estas
medidas de presión y temperatura, obtenemos una serie de gráficas para un d́ıa
determinado. Si repetimos estas medidas para otro d́ıa, obtendremos unas gráfi-
cas diferentes. Y esto es precisamente lo que nos describe un proceso estocástico
que, como veremos en este módulo, consiste en tener un espacio muestral forma-
do de funciones, y cuando hagamos nuestra experiencia aleatoria, obtenemos
una función determinada. Hasta ahora, el resultado de un experimento eran
uno o más números. Ahora, el resultado del experimento será una función.
La aplicación de los procesos estocásticos es fundamental en las redes de co-
municaciones, en el procesamiento de señales, en sistemas de control y otros
campos de la ingenieŕıa en los que necesitamos evaluar una medida o señal en
el espacio o tiempo.
Veremos varios ejemplos de ello, y calcularemos alguna magnitud, preparando
el camino para los parámetros que se definirán en módulos posteriores. Aun
aśı, pondremos el énfasis en los aspectos conceptuales más que en cuestiones
de cálculo.
Este módulo se estructura como se indica a continuación. En el apartado 1,
introducimos el concepto de proceso estocástico o aleatorio. En los ejemplos que
veremos, las funciones que forman el espacio muestral dependen del tiempo, es
decir, la variable independiente es el tiempo, t. Tened presente, sin embargo,
que podemos tener otras variables independientes, como el espacio, por ejemplo;
en este caso, las funciones del espacio muestral dependeŕıan de (x, y, z). En
el apartado 2, veremos que según cómo sea la variable independiente de las
funciones de nuestro espacio muestral, podemos diferenciar procesos a tiempo
continuo y a tiempo discreto. Según los valores que tomen las funciones que
CC-BY-NC-ND • PID 00253300 6 Introducción a los procesos estocásticos
forman el proceso estocástico veremos, en el apartado 3, que estos pueden ser
de estado continuo o de estado discreto. Finalmente, en el apartado 4 veremos
ejemplos de procesos estocásticos.
CC-BY-NC-ND • PID 00253300 7 Introducción a los procesos estocásticos
Objetivos
Los objetivos que tiene que lograr el estudiante, una vez trabajados los mate-
riales didácticos de este módulo, son:
1. Entender qué es un proceso estocástico, y cuáles son sus realizaciones.
2. Familiarizarse con algunos ejemplos de procesos estocásticos.
3. Comprender la definición de los diferentes tipos de procesos estocásticos:
• A tiempo continuo.
• A tiempo discreto.
• De estado continuo.
• De estado discreto.
4. Aplicar los procesos estocásticos a problemas concretos en el campo de la
ingenieŕıa.
CC-BY-NC-ND • PID 00253300 9 Introducción a los procesos estocásticos
1. Definición de proceso estocástico
.
Empezamos este módulo con la definición de proceso aleatorio o estocástico
mediante un ejemplo.
Ejemplo 1.1
Un inversor hace una operación en la bolsa que, en un d́ıa, puede dar dos resultados
posibles. Las acciones pueden subir con probabilidad p, y en este caso tiene un beneficio α.
De manera alternativa, las acciones pueden bajar con probabilidad 1 − p y la pérdida
es β. El inversor hace esta operación cada d́ıa. Sus ganancias durante un d́ıa determinado
constituyen una variable aleatoria, pero al inversor lo que le interesa es el conjunto de
resultados a lo largo del tiempo.
Lo primero que podemos analizar es la evolución temporal de las subidas y bajadas. Los
dos posibles resultados en un d́ıa cualquiera los representamos como A (acontecimien-
to ((subida))) y B (acontecimiento ((bajada))). Denominamos R1 el resultado del primer
d́ıa, R2 el resultado del segundo d́ıa, etc. Aśı, la evolución dinámica de las acciones es
representada por la secuencia R = R1R2R3 · · · , en la que cada Ri puede valer A o B.
Otra magnitud de interés es la ganancia acumulada hasta el d́ıa i, Xi. La evolución
económica de la operación hecha queda representada por la secuencia:
X = [X1, X2, X3, · · · ].
Para fijar ideas, tomamos α = 3 β = 2y. Si los 15 primeros d́ıas tenemos
R = AABABBBAABABABA,
entonces
X = [3, 6, 4, 7, 5, 3, 1, 4, 7, 5, 8, 6, 9, 7, 10].
Esta evolución es una función en la cual la variable independiente es el tiempo i y la
variable dependiente es X, y Xi es la ganancia en el instante i. La gráfica de la figura 1
muestra esta evolución.
Muchas cuestiones que nos podemos plantear están relacionadas con la evolución de estas
variables aleatorias a lo largo del tiempo. Por ejemplo:
• Las ganancias, ¿tienden a aumentar o a disminuir?
• Partiendo de un capital dado, ¿cuál es el tiempo medio hasta que este se ha duplicado?
• Sabiendo que el d́ıa i Xi = C, ¿cuál es la probabilidad de que el d́ıa j > i Xj tome
un cierto valor o esté en un intervalo determinado de valores?
En este ejemplo, la experiencia aleatoria consiste en hacer la operación bursátil cada
d́ıa y lo que obtenemos es la evolución temporal de las ganancias diarias. Si hacemos la
experiencia en periodos
diferentes, obtenemos gráficas distintas, y esto es un ejemplo de
lo que entendemos por proceso estocástico.
CC-BY-NC-ND • PID 00253300 10 Introducción a los procesos estocásticos
Figura 1
En la figura, se representa
una posible evolución de las
ganancias de inversor para un
periodo de 15 d́ıas. Observad
que esta gráfica es una
realización concreta del
proceso aleatorio.
Figura 1. Evolución de la ganancia del inversor
x
i
151413121110
10
9
8
7
6
5
4
3
2
1
0
9876543210
.
Definición 1.1. Un proceso estocástico, X(t), es la asignación de una
función x(t) a cada resultado de un experimento aleatorio. Para cada
realización del experimento, obtendremos una función x(t) diferente.
Otras denominaciones de
proceso estocástico
Un proceso estocástico
también se denomina proceso
aleatorio o función aleatoria.
Observad que el proceso estocástico X(t) es un conjunto de funciones po-
sibles y la realización de un experimento nos asigna no un número concreto,
como hab́ıamos visto en módulos anteriores, sino una función x(t).
De manera general, fijaremos algunas caracteŕısticas de estas funciones. Con-
sideraremos que X(t) toma valores reales e interpretamos la variable indepen-
diente t como tiempo. Hay que tener en cuenta, sin embargo, que no siempre
se analiza la evolución de X en el tiempo. La variable o variables independien-
tes de nuestro proceso estocástico las definiremos según la aplicación concreta.
Veamos algunos ejemplos de ello:
• En el estudio de la distribución de materia en el universo, serán necesarias
funciones X(x, y, z) que dependen de la posición en el espacio tridimen-
sional.
• Un sistema de procesamiento de imagen requiere una descripción estad́ıstica
de las posibles imágenes. Por lo tanto, un proceso X(x, y) en el que (x, y)
son coordenadas rectangulares sobre la imagen.
CC-BY-NC-ND • PID 00253300 11 Introducción a los procesos estocásticos
• Un sistema de análisis meteorológico puede utilizar X(t, z), la presión a
altura z en el instante t, etc.
Como acabamos de ver en la definición 1.1, dado un proceso estocástico, cada
vez que se hace el experimento aleatorio se obtiene una función x(t) diferente.
Algunas veces, nos querremos referir a las propiedades de algunas de estas
funciones.
Observad la figura 2. El inversor del ejemplo que hemos visto antes toma muestras de la
evolución de la bolsa durante 8 d́ıas, y repite este experimento de tomar 8 muestras 4
veces. De este modo, obtiene 4 gráficas o funciones como resultado.
Figura 2
En este ejemplo, partimos de
un mismo proceso estocástico
X(t), que consiste en evaluar
la evolución de la bolsa.
Observad, sin embargo, que
cuatro realizaciones distintas
del proceso nos dan cuatro
funciones x(t) diferentes.
Figura 2. Cuatro posibles resultados en la evolución de la ganancia
(sobre un intervalo de 8 d́ıas)
x
i
10
8
6
4
2
0
–2
876543210
x
i
24
20
16
12
8
4
0
876543210
x
i
12
10
8
6
4
2
0 
876543210
i
8
6
4
2
0
876543210
x
Cada una de estas funciones es una realización del proceso. Estas son funciones x(t)
que tenemos en la práctica.
Ejemplo 1.2
Veamos otro ejemplo de proceso estocástico. Suponed que lanzamos una moneda al aire.
Si obtenemos cara, el proceso estocástico asigna la función xcara = sin(ω0t). Si sale cruz,
el proceso estocástico asigna la función xcruz = sin(2ω0t), en la que ω0 es una frecuencia
fijada. En este caso, nuestro proceso estocástico se compone de dos posibles funciones,
tal y como podéis ver en la figura 3.
Imaginad que ahora, en vez de tirar una moneda al aire, tenemos una secuencia de 5
bits aleatorios. Al recibir un 0, asignamos la función x0 = sin(ω0t) y al recibir un 1,
asignamos la función x1 = sin(2ω0t). Si, por ejemplo, recibimos la secuencia de bits
10101, la función resultante es la que podéis ver en la figura 4. Observad cómo los 0
tienen frecuencia ω0 y los 1 tienen frecuencia 2ω0 (la señal vaŕıa más rápidamente). Esta
función que hemos obtenido es una de las posibles funciones del proceso estocástico,
es decir, es una realización del proceso. Si ahora repetimos el experimento con otra
secuencia de bits aleatoria, obtendremos otra gráfica diferente.
Aśı es como funciona la modulación FSK (frequency shift keying). Este tipo de modula-
ción toma cada bit (o conjunto de bits) y les asigna una frecuencia determinada.
CC-BY-NC-ND • PID 00253300 12 Introducción a los procesos estocásticos
Figura 3
En este ejemplo, las dos
funciones que forman el
proceso estocástico son
xcara = sin(ω0t) y
xcruz = sin(2ω0t). Cada vez
que lanzamos la moneda,
obtenemos una u otra.
Figura 3. Asignación de una función x(t) según el experimento de lanzar una moneda al aire.
0
1
0,8
0,6
0,4
0,2
0
–0,2
–0,4
–0,6
–0,8
–1
0,5 1 1,5 2
x
(t
)
t
sin(2ω0t)
sin(ω0t)
Figura 4
En este ejemplo, asignamos
la frecuencia ω0 al bit 0 y la
frecuencia 2ω0 al bit 1. La
señal transmitida en este
caso es la secuencia 10101.
El parámetro T del gráfico es
la duración de cada bit. Si la
secuencia de bits es distinta,
la señal transmitida también
lo es.
Figura 4. Ejemplo de proceso estocástico aplicado a la modulación FSK
0
1
0,8
0,6
0,4
0,2
0
–0,2
–0,4
–0,6
–0,8
–1
1 2 3 4 5
x
(t
)
t/TBits 1 0 1 10
Definiremos, a continuación, qué entendemos por realización de un proceso
estocástico.
.
Definició 1.2. Las funciones que se obtienen al hacer el experimento
aleatorio se denominan realizaciones del proceso estocástico.
Aśı, el término realización hace referencia a cada una de las funciones que se
obtienen como resultado de un experimento aleatorio, mientras que el término
proceso estocástico hace referencia al conjunto total de posibles funciones
resultantes. La figura 5 muestra varias realizaciones de un mismo proceso.
CC-BY-NC-ND • PID 00253300 13 Introducción a los procesos estocásticos
Figura 5
Un proceso estocástico es el
conjunto de todas las
funciones posibles que
podemos obtener al hacer un
experimento. Una realización
del proceso estocástico es la
función que obtenemos
cuando hacemos el
experimento concreto.
Figura 5. Cuatro realizaciones de un proceso X(t)
0
13
11
9
7
1 2 3
X
(t
)
t
0
13
11
9
7
1 2 3
X
(t
)
t
0
13
11
9
7
1 2 3
X
(t
)
t
0
13
11
9
7
1 2 3
X
(t
)
t
Desde el punto de vista matemático, el tratamiento de los procesos estocásticos
presenta algunas dificultades. En el caso de variables aleatorias, como hemos
visto en los módulos anteriores, podemos hacer medias estad́ısticas porque dis-
ponemos de los instrumentos matemáticos de la suma (para variables aleatorias
discretas) o la integración (para variables aleatorias continuas). Sin embargo,
ahora, proseguir con esta analoǵıa nos obligaŕıa a hacer algún tipo de integra-
ción sobre el conjunto de todas las funciones posibles. Esto implicaŕıa tener
que describir este conjunto de funciones posibles y requeriŕıa construir una
integración sobre este conjunto, cosa que el cálculo ordinario no nos permite.
A pesar de que estas dificultades se pueden superar en algunos casos, el proce-
dimiento habitual es no abandonar el caso de los vectores aleatorios y utilizar
el hecho esencial siguiente.
.
Si fijamos un valor de t, X(t) es una variable aleatoria unidimensional.
Observación
Para poder tratar los
procesos estocásticos de una
manera relativamente
sencilla, fijaremos ciertos
valores de la variables
independiente t del proceso y
trataremos los
correspondientes valores X(t)
como variables aleatorias
unidimensionales.
Por ejemplo, en el proceso representado en la figura 5, podemos fijar la atención en el
valor t = 1. Cada vez que hacemos la experiencia aleatoria se obtiene una función, pero
ahora nos fijamos en lo que vale esta función en t = 1. Se trata del valor de X(1), que para
cada realización es un número. Este valor es la altura de la función sobre t = 1. Como
se ve en la figura 6, cada realización nos da un valor diferente para esta altura. X(1) es,
pues, una variable aleatoria ordinaria. Naturalmente, podemos hacer este análisis para
un instante de tiempo cualquiera. En la figura, se muestran también las alturas sobre
t = 2. Ahora X(2) es otra variable aleatoria.
De este modo, pensaremos en el proceso estocástico X(t) como en una variable aleatoria
que depende de un ı́ndice t.
CC-BY-NC-ND • PID 00253300 14 Introducción a los procesos estocásticos
Observación
Cuando fijamos un valor de
la variables independiente,
como por ejemplo t = 1, las
distintas realizaciones del
proceso nos dan como
resultado una variable
aleatoria X(1). Podemos
tratar X(1) como una
variable aleatoria
unidimensional. Lo mismo
sucede para cualquier otro
valor de t.
Figura 6
Esta figura muestra cuatro
realizaciones de un proceso
estocástico. Aqúı tomamos
como variables aleatorias
unidimensionales X(1) y
X(2).
Figura 6. Las alturas correspondientes a t = 1 y t = 2
0
13
11
9
7
1 2 3
X
(t
)
t
0
13
11
9
7
1 2 3
X
(t
)
t
0
13
11
9
7
1 2 3
X
(t
)
t
0
13
11
9
7
1 2 3
X
(t
)
t
Figura 7
Como en la figura 6, pero
ahora sobre un mismo
gráfico, podemos ver cuatro
realizaciones de un proceso
estocástico y los valores que
van tomando las variables
aleatorias unidimensionales
X(1) y X(2).
Figura 7. Cuatro realizaciones y los valores que van tomando X(1) y X(2)
t
9
6
3
X
(t
)
0 1 2 3
Una vez revisada la definición de proceso estocástico, a continuación veremos
que podemos clasificar los procesos estocásticos en cuatro tipos básicos.
CC-BY-NC-ND • PID 00253300 15 Introducción a los procesos estocásticos
2. Procesos a tiempo continuo y a tiempo discreto
.
En el apartado anterior, hemos visto la definición de proceso estocástico. Ahora
veremos cómo podemos clasificar los procesos estocásticos dependiendo de si la
variable independiente t es un parámetro continuo o discreto.
Variables independientes de
los procesos estocásticos
En todos los ejemplos que
estamos viendo, estamos
considerando procesos
estocásticos que dependen de
una sola variable
independiente, el tiempo.
Recordad, sin embargo, que
podemos tener procesos
estocásticos que dependan de
distintas variables
independientes, como por
ejemplo el espacio (x, y, z).
En el ejemplo del inversor, el proceso lo constituye la sucesión de resultados en
d́ıas consecutivos. Aśı, en este caso, el tiempo se mide en d́ıas y se representa con
un parámetro discreto i. Las gráficas de estos procesos consisten en una sucesión
de puntos aunque, normalmente, se unen con ĺıneas rectas, tal y como hemos
hecho en la figura 1. Observad que, en este ejemplo, la variable independiente
solo toma valores enteros (d́ıa 1, d́ıa 2, etc.).
.
Definición 2.1. Un proceso estocástico a tiempo discreto es aquel
en el que la variable t toma un conjunto finito o infinito numerable de
valores reales. Por ejemplo, t ∈ Z.
En otros muchos casos, sin embargo, la variable independiente puede variar de
manera continua sobre los reales.
.
Definición 2.2. Un proceso estocástico a tiempo continuo es aquel
en el que la variable t vaŕıa sobre todo un intervalo real. Por ejemplo,
t ∈ R, t ∈ [0,∞) o t ∈ [a, b].
Veamos un ejemplo para clarificar conceptos.
Ejemplo 2.1
Una central eléctrica suministra enerǵıa a una población. La demanda de electricidad está
sometida a fluctuaciones, puesto que es la suma de las demandas de muchos consumidores
pequeños. También hay factores como la hora (se produce más consumo por la tarde,
cuando oscurece) y las variaciones del tiempo atmosférico (si viene un golpe de fŕıo, se
puede disparar el consumo por el uso de la calefacción). Si representamos el tiempo a lo
largo de un d́ıa por la variable t (0 ≤ t < 24, en horas), la demanda constituye un proceso
estocástico D(t).
En este caso, es necesario considerar t como una variable continua, es decir, que toma
cualquier valor real, puesto que la central tiene que poder responder de manera rápida a
las variaciones que se van produciendo en la demanda.
CC-BY-NC-ND • PID 00253300 16 Introducción a los procesos estocásticos
Figura 8
Ejemplo de una realización
de un proceso estocástico a
tiempo continuo, puesto que
la variable t puede tomar
cualquier valor real.
Figura 8. Evolución de la demanda energética a lo largo de un d́ıa
t
150
100
50
0
D
(t
)
0 123 6 9 24211815
El caso de tiempo discreto es más sencillo de tratar, puesto que nos remite
más directamente a los vectores aleatorios. En efecto, si t toma solo los valores
t1, t2, · · · , la función resultante queda especificada por X(t1), X(t2), · · · y esto
constituye un conjunto de variables aleatorias. ¿Dónde está la diferencia con
los vectores aleatorios?
Procesos estocásticos a
tiempo discreto y vectores
aleatorios
Podemos pensar en un
proceso aleatorio en tiempo
discreto como en un vector
aleatorio. Cuidado, sin
embargo, con algunas
diferencias conceptuales
importantes.
• Por un lado, ahora tenemos una secuencia de infinitas variables aleatorias, de
forma que no las podemos tratar todas conjuntamente, sino en subconjuntos
finitos.
• Por otro lado, en un vector aleatorio el ı́ndice que numera las variables
es puramente una etiqueta sin un significado especial, mientras que en el
proceso estocástico, este ı́ndice tiene el significado de posición temporal y
posee un papel más dinámico. Por ejemplo, podemos esperar una correlación
más fuerte entre X(t1) y X(t2) que entre X(t1) y X(t50).
Véase también
En el apartado 3 de este
módulo, veremos que los
procesos estocásticos
también se pueden diferenciar
en función de si los valores
que tomamos son discretos o
continuos.
Los procesos a tiempo continuo constituyen la clase más general, y nuestra
descripción general se encaminará a este tipo. Podemos conectar los dos tipos
si pensamos en procesos a tiempo discreto que aproximen procesos a tiempo
continuo (por medio de un muestreo, quizá) o en procesos a tiempo continuo
como paso al ĺımite de procesos a tiempo discreto.
CC-BY-NC-ND • PID 00253300 17 Introducción a los procesos estocásticos
3. Procesos de estado continuo y de estado discreto
.
En este apartado del módulo, veremos otra manera de clasificar los procesos
estocásticos. Esta clasificación corresponde a los valores que puede tomar X(t).
Dado que con t fijado X(t) es una variable aleatoria, el proceso se tendrá
que tratar de manera diferente según esta variable sea discreta o continua.
Hablaremos de procesos de estado discreto o de estado continuo para referirnos
a estos casos.
.
Definición 3.1. Un proceso estocástico de estado discreto es aquel
en el que la variable aleatoria X(t) a tiempo fijado es una variable dis-
creta.
Ejemplo 3.1
Un servidor de internet va recibiendo visitas que podemos considerar que se producen en
instantes aleatorios. Consideramos 0 ≤ t ≤ 24 (expresado en horas) y definimos el proceso
estocástico X(t) como un contador de visitas (X(0) = 0 y se incrementa una unidad
cada vez que hay una visita). Claramente, para t arbitrario fijado, X(t) solo puede valer
0, 1, 2, 3, . . . De este modo, tenemos un proceso de estado discreto (y a tiempo continuo,
puesto que el contador está definido en cualquier instante).
.
Definición 3.2. Un proceso estocástico
de estado continuo es
aquel en el que la variable aleatoria X(t) a tiempo fijado es una variable
continua.
Ejemplo 3.2
Medimos de manera precisa el nivel de ruido X(t) en un circuito electrónico en función del
tiempo t. El proceso es de estado continuo, puesto que esta intensidad es un número real
arbitrario (dentro de un cierto intervalo). Tal y como lo planteamos, el proceso también
está a tiempo continuo, pero lo podŕıamos hacer a tiempo discreto si llevásemos a cabo
las medidas separadas por un cierto intervalo de tiempo; por ejemplo, cada 0,01 segundos.
Para resumir, podemos clasificar los procesos en dos tipos, en función de los
valores que pueden tomar: proceso estocástico de estado continuo y pro-
ceso estocástico de estado discreto.
CC-BY-NC-ND • PID 00253300 18 Introducción a los procesos estocásticos
4. Ejemplos de procesos estocásticos
.
En principio, en un proceso aleatorio no debe haber necesariamente relaciones
de dependencia entre las variables X(t) a tiempos diferentes. Esto da lugar
a funciones de apariencia irregular y comportamiento complicado (desde la
perspectiva del análisis matemático). Por otro lado, podemos construir pro-
cesos, de manera un tanto artificial, tomando funciones ordinarias e introdu-
ciendo parámetros aleatorios. Estos últimos ejemplos, además de su utilidad
pedagógica porque son fácilmente manipulables, también se pueden presentar
en la realidad.
En este apartado, y ya para finalizar este módulo de introducción a los proce-
sos estocásticos, veremos desde procesos en los que definimos algunas variables
aleatorias, y para los cuales las realizaciones tienen una forma similar, has-
ta procesos totalmente imprevisibles y sin ninguna correlación entre instantes
distintos.
4.1. Procesos representables expĺıcitamente en términos
de variables aleatorias
Funciones deterministas y
no deterministas
En una función determinista,
conocemos todos los valores
que toma la función. Si, por
ejemplo, tenemos la función
y(t) = A sin(ωt), podemos
saber qué valores tiene la
función para cualquier valor
de t si conocemos los
parámetros A y ω. Si alguno
de estos parámetros es una
variable aleatoria, la función
es no determinista.
En este subapartado, vemos dos ejemplos de procesos estocásticos que se pueden
definir por una función determinista en la que alguno de sus parámetros es una
variable aleatoria. Veámoslos a continuación.
Ejemplo 4.1
Disparamos un proyectil verticalmente con velocidad inicial v0. Sabemos, por mecánica
newtoniana, que su posición (altura) en función del tiempo es determinada por h(t) =
v0t− g2 t
2, donde g = 10ms−2 es la aceleración de la gravedad. Suponemos que el sistema
que impulsa el proyectil está sometido a fluctuaciones, de forma que v0 no toma un
valor constante y lo podemos considerar una variable aleatoria. Entonces, cada vez que
disparamos el proyectil, el movimiento h(t) es diferente, puesto que v0 vaŕıa. Por lo tanto,
tenemos que considerar h(t) como un proceso estocástico. En la figura 9, se muestran tres
realizaciones de este proceso.
En este ejemplo, todo el carácter aleatorio de la función h(t) se debe a un único parámetro
v0, lo que simplifica el estudio de este proceso.
A continuación, damos una formulación general de este tipo de procesos.
Por simplicidad, utilizaremos un máximo de dos parámetros aleatorios, a pesar
de que la extensión a una variable n-dimensional es inmediata. Son procesos
que se pueden representar en la forma siguiente:
X(t) = Φ(t, A,B), (1)
Véase también
Los vectores aleatorios se
estudian en el módulo
((Vectores aleatorios)).
CC-BY-NC-ND • PID 00253300 19 Introducción a los procesos estocásticos
donde Φ es una función fijada de tres variables y (A,B) es un vector aleatorio
bidimensional. Al hacer el experimento aleatorio, A y B quedan determinadas
y pasan a ser parámetros numéricos que fijan la forma de X(t).
Figura 9
Este proceso estocástico
consiste en una función
determinista en la que el
parámetro v0 es una variable
aleatoria. Observad que las
tres realizaciones del proceso
tienen una forma similar.
Figura 9. Evolución de la altura en tres lanzamientos del proyectil
t
v0 = 55
200
150
100
50
0
h
(t
)
0 82 4 6 141210
v0 = 40
v0 = 50
Veamos otro ejemplo sobre oscilaciones aleatorias de todo lo que hemos visto
en este subapartado.
Ejemplo 4.2 Observación
En el ejemplo 4.2, el proceso
estocástico depende del
tiempo y del vector aleatorio
bidimensional (V, ϕ). Es
decir, X(t) = Φ(t, V, ϕ).
Imaginad que el voltaje que aplicamos a un circuito es un proceso de la forma X(t) =
V cos(t − ϕ), en el que V y ϕ constituyen un vector aleatorio bidimensional. Por lo
tanto, estamos considerando que la amplitud y la fase de este voltaje están sometidos
a fluctuaciones estad́ısticas. Esto refleja el hecho de que este circuito recibe voltajes de
una colectividad de usuarios, o está producido por un aparato con tolerancias amplias de
fabricación, o hay un efecto externo (ruido, por ejemplo) que lo afecta, etc.
Para fijar más la situación, suponemos que V es una variable exponencial de valor medio 1,
que ϕ es una variable uniforme en [0, 2π] y que son independientes. Variable exponencial
Recordemos que una variable
aleatoria exponencial de
parámetro λ se representa
Exp(λ) y tiene valor medio
m = 1
λ
. A veces, nos
referimos a esta variable
como exponencial de valor
medio m.
Si fijamos un instante dado t = t0, tal y como hemos visto en el apartado 1 de este
módulo, resulta que X(t0) es una variable unidimensional que es función de dos variables
aleatorias. Esta es una situación que sabemos tratar. Por ejemplo, para t = 0 tenemos la
variable X(0). Vemos que podemos calcular su esperanza:
E(X(0)) = E(V cosϕ) = E(V ) E(cosϕ),
Teorema de la esperanza
El teorema de la esperanza
dice que, dada una variable
aleatoria X, el valor medio de
una función de esta variable
g(X) vale E(g(X)) =∫∞
−∞ g(x)fX(x)dx.
puesto que V y cosϕ son variables independientes. El primer factor vale, tal y como dice
el enunciado, E(V ) = 1. El segundo lo calculamos con el teorema de la esperanza:
E(cosϕ) =
∫ 2π
0
cosϕ
1
2π
dϕ =
1
2π
∫ 2π
0
cosϕdϕ =
1
2π
[sinϕ]2π0 =
1
2π
(sin 2π − sin 0) = 0.
CC-BY-NC-ND • PID 00253300 20 Introducción a los procesos estocásticos
Aśı, llegamos a la conclusión: E(X(0)) = 0.
Este resultado se puede entender si tenemos en cuenta que el proceso X(t) consiste en
una oscilación con una fase que es aleatoria y toma valores sobre todo un periodo con
densidad uniforme. Por lo tanto, contribuyen valores positivos y negativos con el mismo
peso, y el valor medio es nulo.
Para completar el ejemplo, vemos que podemos expresar este proceso a partir de otras
variables aleatorias, haciendo un cambio adecuado. Utilizando la fórmula
cos(α− β) = cosα cosβ + sinα sinβ (2)
resulta
X(t) = A cos t+B sin t, (3)
donde A = V cosϕ y B = V sinϕ. Entonces, (A,B) es un vector aleatorio que se obtiene
del vector (V, ϕ) con un cambio de variables. Algunos aspectos de este proceso se estudian
mejor con esta representación.
4.2. Procesos con infinitos grados de libertad aleatorios
Muchos procesos no se pueden expresar a partir de un número finito de paráme-
tros aleatorios, como seŕıa el caso de los procesos que hemos visto en el subapar-
tado anterior. Esto puede representar que no tengamos una expresión expĺıcita
de la función X(t). Aun aśı, en muchas aplicaciones lo que importa son medias
estad́ısticas que en los procesos más habituales son fáciles de calcular. A veces
podemos expresar el proceso en términos de un conjunto numerable de varia-
bles aleatorias, cosa que nos da un cierto carácter expĺıcito
y la posibilidad de
hacer cálculos de manera análoga al ejemplo 4.2 del subapartado anterior.
Ejemplo 4.3
Definimos un proceso en el que las variables X(t) en instantes diferentes son indepen-
dientes. Además, para todo t, la variable X(t) es normal con m = 0 y σ = 1. El resultado
es un proceso en el que las realizaciones son totalmente irregulares.
Figura 10
El ruido blanco es un ejemplo
de proceso en el que no
podemos prever los valores
del proceso en un instante a
partir de los valores en
instantes distintos. Lo que śı
podemos hacer, sin embargo,
es caracterizar este proceso
con los parámetros de media,
m, y desviación estándar, σ.
Figura 10. Realización del proceso X(t)
t
3
2
1
0
–1
–2
–3
X
(t
)
0 52 431
CC-BY-NC-ND • PID 00253300 21 Introducción a los procesos estocásticos
Ejemplo 4.4
El movimiento browniano tiene importancia histórica y por sus aplicaciones. En 1827, el
botánico Robert Brown observó en el microscopio que las part́ıculas de polen en suspen-
sión en agua en reposo manifestaban un movimiento muy irregular que parećıa inexpli-
cable. Estas trayectorias constituyen un proceso estocástico, en este caso en R3, ya que
la trayectoria es (X(t), Y (t), Z(t)).
El ejemplo es particularmente relevante, ya que la explicación de este movimiento son las
fluctuaciones en los choques que las moléculas de agua en agitación técnica hacen contra
la part́ıcula. De este modo, la descripción del fenómeno permite verificar de manera
indirecta los modelos moleculares y de mecánica estad́ıstica para describir la materia. Al
mismo tiempo, la descripción matemática de este proceso es útil como modelo de otros
fenómenos y es aplicable en campos como la ingenieŕıa.
Figura 11
El movimiento browniano es
un movimiento bastante
irregular e imprevisible, pero
es continuo y hay
correlaciones. La descripción
matemática de este fenómeno
fue elaborada por Albert
Einstein en el año 1905.
Figura 11. Simulación del movimiento browniano bidimensional
60
50
40
30
20
10
0
–10
20–20 –10 100–40–50 –30
A continuación, vemos otro ejemplo sobre el paseo aleatorio basado en el mo-
vimiento browniano que acabamos de ver.
Ejemplo 4.5
Desarrollamos con un cierto detalle un ejemplo similar al movimiento browniano. Una
part́ıcula se mueve en una dimensión. X(t) representa su posición en el instante t (t ≥ 0).
Partimos de X(0) = x0. La part́ıcula se mueve con una velocidad constante que cambia
de manera brusca en los instantes t = 1, 2, 3, . . . Esto lo representamos diciendo que el
desplazamiento de X(n − 1) a X(n) es determinado por la variable aleatoria Zn. Las
variables Z1, Z2, . . . son independientes y son todas del mismo tipo, como por ejemplo,
N(m,σ).
El proceso consiste en una ĺınea poligonal (tramos de recta pegados con continuidad en
los valores enteros de t). Para n ∈ N, X(n) = X(n− 1) +Zn. Aśı, para t entero tenemos:
X(n) = x0 +
n∑
i=1
Zi. (4)
CC-BY-NC-ND • PID 00253300 22 Introducción a los procesos estocásticos
Figura 12
Ejemplo de tres realizaciones
distintas del proceso paseo
aleatorio.
Figura 12. Tres realizaciones del proceso X(t) con x0 = 0, m = 1, σ = 1,5
t
16
14
12
10
8
6
4
2
0
–2
X
(t
)
0 52 431 107 986
Para expresar el proceso para t arbitrario, ponemos t = [t] + d(t), donde [t] es la par-
te entera de t y d(t) = t − [t], su parte decimal. Dado que los puntos ([t], X([t])),
([t] + 1, X([t] + 1)) se unen con un segmento de ĺınea recta donde se encuentra el punto
(t,X(t)), tenemos la proporcionalidad:
X(t)−X([t])
t− [t]
=
X([t] + 1)−X([t])
([t] + 1)− [t]
,
es decir:
X(t)−X([t])
d(t)
= Z[t]+1,
de donde X(t) = X([t]) + d(t)Z[t]+1. Entonces podemos escribir X(t) expĺıcitamente,
para cualquier t ≥ 0, como:
X(t) = x0 +
[t]∑
i=1
Zi + d(t)Z[t]+1. (5)
Por ejemplo, para expresar X(2, 3) tenemos que X(2, 3) = X(2) + 0, 3Z3, y X(2) =
X(1) + Z2 = (X(0) + Z1) + Z2 = x0 + Z1 + Z2.
Hemos llegado a una expresión expĺıcita del proceso, en términos de las variables alea-
torias Zn. Ahora nos podemos plantear el estudio de alguna propiedad de este proceso.
Dado que las funciones expresadas en la ecuación (5) son aleatorias, aparecen dos tipos de
cuestiones que es natural plantearse. Una es cuál es la probabilidad de que a la función
X(t) le pase algo. Otra es cómo se comporta X(t) de media. Este segundo tipo suele
tener más interés. A modo de ejemplo, dado que la posición en un instante cualquiera es
aleatoria, podemos calcular su valor medio. Dado que esto lo podemos hacer para todo
instante t, lo que obtendremos será un tipo de trayectoria media.
CC-BY-NC-ND • PID 00253300 23 Introducción a los procesos estocásticos
Calculamos, pues, el valor medio de la variable X(t) para cualquier t fijado:
E(X(t)) = E
x0 + [t]∑
i=1
Zi + d(t)Z[t]+1
 = x0 + [t]∑
i=1
E(Zi) + d(t) E(Z[t]+1) =
x0 +
[t]∑
i=1
m+ d(t)m = x0 + [t]m+ d(t)m = x0 +mt.
Aśı, hemos demostrado:
E(X(t)) = x0 +mt. (6)
Podemos interpretar este resultado diciendo que, de media, se desplaza a velocidad cons-
tante m.
La gráfica de la figura 13 representa tres realizaciones y la recta media, x0 +mt.
Figura 13
Observad las tres
realizaciones del proceso
paseo aleatorio y su relación
con la recta media x0 +mt.
Figura 13. La recta x0 +mt (ĺınea punteada) junto con tres realizaciones
t
16
14
12
10
8
6
4
2
0
–2
X
(t
)
0 52 431 107 986
CC-BY-NC-ND • PID 00253300 24 Introducción a los procesos estocásticos
Resumen
Un proceso estocástico, X(t), es la asignación de una función x(t) a cada
resultado de un experimento aleatorio. Cada una de estas funciones depende de
una variable independiente, que es el tiempo, t. En módulos anteriores, cuando
teńıamos una variable aleatoria, el resultado de un experimento era un número.
Ahora, cuando nos referimos a los procesos estocásticos, cada vez que hacemos
un experimento determinado obtenemos una función determinada, x(t), que
denominamos realización del proceso.
Una manera de simplificar los cálculos a la hora de obtener algunas propieda-
des de los procesos estocásticos consiste en fijar ciertos valores de la variable
independiente t y tratar estos valores como variables aleatorias. Nos podemos
fijar, por ejemplo, en cómo se comporta X(1), X(2), etc.
Podemos clasificar los procesos estocásticos en función de la naturaleza de su
variable independiente (t en este caso). De este modo, hemos visto que los
procesos estocásticos pueden ser:
• Procesos estocásticos a tiempo discreto: si t toma valores discretos.
• Procesos estocásticos a tiempo continuo: si t toma valores continuos.
Según los valores que toma X(t), podemos diferenciar dos tipos de procesos:
• Procesos estocásticos de estado discreto: cuando, en un instante t
fijado, la variable aleatoria X(t) es discreta.
• Procesos estocásticos de estado continuo: cuando, en un instante t
fijado, la variable aleatoria X(t) es continua.
Aśı pues, podemos clasificar los procesos estocásticos en cuatro tipos:
• Procesos estocásticos a tiempo discreto y de estado discreto.
• Procesos estocásticos a tiempo discreto y de estado continuo.
• Procesos estocásticos a tiempo continuo y de estado discreto.
• Procesos estocásticos a tiempo continuo y de estado continuo.
En este módulo, hemos visto diferentes ejemplos de procesos estocásticos. En
algunos casos, las realizaciones de procesos estocásticos son una función de-
terminista, en la que alguno de sus parámetros es una variable aleatoria. El
modelo de trayectoria de un proyectil o el voltaje de entrada a un circuito son
dos ejemplos de ello. En estos casos, conocemos a grandes rasgos cuál es la for-
CC-BY-NC-ND
• PID 00253300 25 Introducción a los procesos estocásticos
ma de la función que obtendremos, y determinando un número de parámetros
finito, podemos dibujar la función resultante.
Hay otros procesos estocásticos, sin embargo, que tienen infinitos grados de
libertad, es decir, que no se pueden determinar a partir de unos pocos paráme-
tros, y por lo tanto no podemos expresar el proceso X(t) en forma expĺıcita. Es
el caso del ruido blanco o del movimiento browniano. Estos procesos modelizan
muchos fenómenos naturales. A pesar de que la descripción estad́ıstica puede
ser muy complicada, podemos calcular algunos parámetros, como por ejemplo
el valor medio.
CC-BY-NC-ND • PID 00253300 26 Introducción a los procesos estocásticos
Actividades
1. Dado el proceso estocástico X(t) = 1 + A cos t + B sin t, en el que A y B son variables
aleatorias gaussianas independientes, demostrad que la función cos(t−1)+1 es una realización
del proceso X(t).
2. Dado el proceso estocástico X(t) = At+B(1− t), en el que A y B son variables aleatorias
independientes uniformes en el intervalo [0, 2], demostrad que la función 1+t es una realización
del proceso X(t).
3. Dado el proceso estocástico X(t) = A+B cos t+C sin t, en el que A, B y C son variables
gaussianas independientes, demostrad que ϕ(t) = 2 cos(t− 1) es una realización del proceso.
4. Dada A, variable aleatoria exponencial de esperanza 1, se define el proceso:
X(t) =
 t, 0 ≤ t ≤ A,
0, t > A.
¿Qué valores puede tomar la variable aleatoria X(3)? Mostrad que el proceso es de estado
discreto.
5. Dados los procesos siguientes:
X(t) =
 0, 0 ≤ t ≤ B,
2− t, t > B,
Y (t) =
 A− t, 0 ≤ t ≤ A,
t−A, t > A.
En los que B es una variable aleatoria uniforme en [0, 2] y A es una variable aleatoria
exponencial de esperanza 1.
¿Qué valores pueden tomar las variables aleatorias X(1) y Y (1)? Razonad si los procesos
X(t) e Y (t) son de estado discreto o continuo.
6. Considerad una variable aleatoria V exponencial y los procesos:
Y (t) =
 t2 + t, 0 ≤ t ≤ V,
0, t > V,
Z(t) =
 0, 0 ≤ t ≤ V,
V + 1, t > V.
¿Qué valores pueden tomar las variables aleatorias Y (2) y Z(2)? Razonad si alguno de los
procesos Y (t) o Z(t) es de estado discreto.
7. Considerad el proceso estocástico X(t) = (t − A)(t − 2A) en el que A es una variable
aleatoria uniforme en el intervalo [0, 6].
Dadas las funciones x1(t) = t2−3t+3 y x2(t) = t2−6t+8, ¿alguna de estas es una realización
del proceso X(t)?
8. Considerad variables aleatorias A de Bernoulli con p = 1
2
y exponencial B con λ = 2.
Decid, justificando la respuesta, si los procesos siguientes son de estado discreto o continuo:
Y1(t) = At, Y2(t) = At+B, Y3(t) =
 t, 0 ≤ t ≤ B,
0, t > B.
9. Al activar un circuito, aparece una corriente X(t) para t ≥ 0 que podemos representar
como un proceso estocástico:
X(t) = (1 +A cos(10πt))e−t,
en el que A es una variable aleatoria uniforme en el intervalo [−3, 3].
¿Alguna de las funciones x1(t) = (2 + cos(10πt))e−t, x2(t) = (1 + 5 cos(10πt))e−t, x3(t) =
(1− 2 cos(10πt))e−t es una realización del proceso X(t)?
CC-BY-NC-ND • PID 00253300 27 Introducción a los procesos estocásticos
10. Decid, justificando la respuesta, si los procesos siguientes son de estado discreto o conti-
nuo:
a) X1(t) = A cos t, en el que A es una variable binomial con n = 4, p =
1
3
.
b) X2(t) = A cos t + B sin t, en el que A es de Bernoulli con p =
1
2
y B es exponencial con
λ = 1.
c) X3(t) =
 1, 0 ≤ t ≤ B,
0, t > B,
donde B es exponencial con λ = 1.
11. La demanda que tiene un centro de suministro de enerǵıa a lo largo de un d́ıa está
determinada por el proceso estocástico:
X(t) = 100 +Bt(24− t),
donde 0 ≤ t < 24 es el tiempo en horas y B es una variable aleatoria uniforme en el intervalo
[1, 3].
¿Algún valor de α, β o γ hace que las funciones siguientes sean realizaciones del proceso X(t):
x1(t) = 100 + 48t− αt2, x2(t) = 100 + 12t− βt2, x3(t) = 100 + γt− 1,3t2?
Utilizad software matemático para representar gráficamente algunas realizaciones del proceso
X(t).
12. Decid, justificando la respuesta, si los procesos siguientes son de estado discreto o conti-
nuo:
a) X1(t) = cos(t+W ), donde W es una variable uniforme en el intervalo [0, 2π].
b) X2(t) = e−Bt, donde B es geométrica con p =
1
3
.
c) X3(t) =
 A, 0 ≤ t ≤ A,
0, t > A,
donde A es exponencial con λ = 1.
13. El uso de ancho de banda en una red en función del tiempo está determinado por el
proceso estocástico:
X(t) = Ae−t +
1
A
,
en el que t ≥ 0 es el tiempo en horas y A es una variable aleatoria con función de densidad:
fA(a) =
a
2
si 0 < a < 2, y fA(a) = 0 en caso contrario.
¿Algún valor de κ hace que la función siguiente sea una realización del proceso X(t): ϕ(t) =
κ+ (1 + 2κ)e−t?
Utilizad software matemático para representar gráficamente algunas realizaciones del proceso
X(t).
14. A partir de las variables U exponencial de parámetro λ = 2 y V binomial con n = 4,
p = 1
2
se definen los procesos:
X(t) = cos(t+ U), Y (t) = sin
(π
4
V t
)
, Z(t) =
 1, 0 ≤ t ≤ U,
0, t > U.
a) ¿Qué valores pueden tomar las variables dadas por los procesos anteriores en t = 2, X(2),
Y (2), Z(2)?
b) Decid, justificando la respuesta, si estos procesos son de estado discreto o continuo.
c) ¿Es posible construir un proceso de estado continuo a partir de una variable aleatoria
discreta? Dad un ejemplo de esto o demostrad que no es posible.
15. Un tipo de part́ıcula produce radiación de intensidad descrita por el proceso estocástico:
X(t) = J cos t+ (1− J) sin t,
CC-BY-NC-ND • PID 00253300 28 Introducción a los procesos estocásticos
en el que t es el tiempo y J es una variable aleatoria de Bernoulli con parámetro p = 1
2
.
Decid, de manera justificada, si se trata de un proceso a tiempo discreto o continuo, y si es
de estado discreto o continuo.
16. El nivel de carga en un acumulador de enerǵıa, para t ≥ 0, se describe con el proceso:
X(t) = A2 −B2t+ t2,
en el que A y B son variables uniformes en [1, 2], independientes.
¿Cuál de las funciones siguientes son realizaciones del proceso ϕ1(t) = (1 − t)2, ϕ2(t) =
2− 3t+ t2, ϕ3(t) = 4− 5t+ t2?
CC-BY-NC-ND • PID 00253300 29 Introducción a los procesos estocásticos
Solucionario
1. cos(t − 1) + 1 = 1 + cos t cos 1 + sin t sin 1. Es la función que resulta cuando A = cos 1 y
B = sin 1.
2. 1 + t = At+B(1− t) se verifica si A = 2, B = 1, de forma que 1 + t es una realización del
proceso.
3. ϕ(t) = 2 cos 1 cos t+ 2 sin 1 sin t. Se da cuando A = 0, B = 2 cos 1 = 1,0806 y C = 2 sin 1 =
1,6829. Puesto que son variables gaussianas, los valores son posibles.
4. La variable aleatoria X(3) solo puede valer 0 y 3, dado que X(3) =
 3, 3 ≤ A
0, 3 > A.
En general, X(t) solo puede tomar dos valores: 0 y t. Por lo tanto, fijado t, X(t) es una
variable discreta. De este modo, el proceso es de estado discreto.
5. La variable aleatoria X(1) solo puede valer 0 y 1, puesto que: X(1) =
 0, 1 ≤ B
1, 1 > B.
En general, X(t) solo puede tomar dos valores: 0 y 2− t. Por lo tanto, fijado t, X(t) es una
variable discreta. De esta manera, el proceso X(t) es de estado discreto.
La variable aleatoria Y (1) es: Y (1) =
 A− 1, 1 ≤ A
1−A, 1 > A
Y puede tomar cualquier valor positivo, puesto que A vaŕıa de 0 a ∞. De este modo, el
proceso Y (t) es de estado continuo.
6. Tenemos que: Y (2) =
 6, 2 ≤ V,
0, 2 > V,
Z(2) =
 0, 2 ≤ V,
V + 1, 2 > V.
Y (2) solo puede valer 0 y 6. En general, Y (t) solo puede tomar dos valores: 0 y t2 + t. Por lo
tanto, fijado t, Y (t) es una variable discreta. Aśı, el proceso Y (t) es de estado discreto.
La variable aleatoria Z(2) solo puede valer 0 o cualquier valor entre 1 y 3. Por lo tanto, Z(t)
no es un proceso de estado discreto.
7. Notamos que X(t) = t2 − 3At+ 2A2. x1(t) no es una realización del proceso, puesto que
ningún valor de A nos da esta función (se necesitaŕıa A = 1 para el término de primer grado,
pero entonces el término constante valdŕıa 2). x2(t) es una realización del proceso, puesto
que A = 2 nos da X(t) = t2 − 6t+ 8.
8. A solo puede valer 0 y 1, mientras que B toma cualquier valor entre 0 y ∞.
a) Fijado t, la variable Y1(t) solo puede tomar dos valores, 0 y t. Aśı, para todo t, Y1(t) es
una variable discreta y el proceso es de estado discreto.
b) Fijado t, la variable At+B puede tomar cualquier valor positivo. Aśı, para todo t, Y2(t)
es una variable continua y el proceso es de estado continuo.
c) Y3(t) es de estado discreto, puesto que fijado t, solo puede tomar dos valores, 0 y t (según
sea B < t o B > t).
9. Las realizaciones son las funciones que se obtienen dando valores concretos a la variable A.
De las tres funciones, solo x3(t) es una realización, correspondiente a A = −2, que pertenece
al conjunto de valores posibles de A.
10. a) Dado que A toma solo 5 valores posibles (0, 1, 2, 3, 4), fijado t, la variable X1(t) toma
también solo 5 valores posibles. Aśı, para todo t, X1(t) es una variable discreta y el proceso
es de estado discreto.
CC-BY-NC-ND • PID 00253300 30 Introducción a los procesos estocásticos
b) Dado que B toma un conjunto continuo de valores (de 0 a ∞), lo mismo pasará con la
variable A cos t + B sin t con t fijado. Aśı, X2(t) es una variable continua y el proceso es de
estado continuo.
c) X3(t) es de estado discreto, puesto que fijado t, solo puede tomar dos valores, 0 y 1 (según
sea B < t o B > t).
11. Las realizaciones son las funciones que se obtienen dando valores concretos a la variable B.
Expresando X(t) = 100+24Bt−Bt2, vemos que x1(t) corresponde a B = 2 si hacemos α = 2;
x2(t) no es realización de X(t), puesto que seŕıa necesario B =
1
2
, que no pertenece a los
posibles valores de B; y x3(t) corresponde a B = 1,3 y, por lo tanto, γ = 31,2.
Las realizaciones de X(t) son parábolas con el máximo en t = 12.
Figura 14
Realizaciones del proceso del
ejercicio 11 con B = 1,5 y
B = 2,9.
Figura 14. Realizaciones con B = 1,5 y B = 2,9.
550
500
450
400
350
300
250
200
150
100
50
-50
X
(f
)
5 10 15 20 25
B=1,5
B=2,9
12. a) Dado que W es continua, con t fijado, cos(t + W ) también es una variable continua
y el proceso es de estado continuo.
b) Dado que B es discreta, fijado t, e−Bt toma también un conjunto numerable de valores
y el proceso es de estado discreto.
c) X3(t) es de estado continuo puesto que, fijado t, puede tomar cualquier valor (entre t
y ∞).
13. Las realizaciones son las funciones que se obtienen dando valores concretos a la variable A.
Para que ϕ(t) sea una realización, tendŕıa que haber algún valor de A en [0, 2] tal que
A = 1+2κ y 1
A
= κ. De este modo, κ tiene que verificar 1
κ
= 1+2κ, es decir, 2κ2 +κ−1 = 0.
Las dos soluciones son κ = −1 y κ = 1
2
. La única posible es κ = 1
2
, correspondiente a A = 2.
Véase en la figura 15 las realizaciones con A = 0,2, A = 0,5 y A = 1,5.
CC-BY-NC-ND • PID 00253300 31 Introducción a los procesos estocásticos
Figura 15
Realizaciones con A = 0,2,
A = 0,5 y A = 1,5
Figura 15. Realizaciones con A = 0,2, A = 0,5 y A = 1,5
8
7
6
5
4
3
2
1
–1
X
(f
)
1 2 3 4 5 6 7 8
A=0,2
A=0,5
A=1,5
14. a) Dado que U toma cualquier valor positivo, X(2) = cos(2 + U) toma valores en todo
el intervalo [−1, 1]. Puesto que V toma valores 0, 1, 2, 3, 4, Y (2) = sin(π
2
V ) solo puede valer
−1, 0 y 1. Z(2) solo puede valer 0 y 1.
b) Generalizando a cualquier t el apartado anterior, vemos que X(t) es de estado continuo e
Y (t) y Z(t) son de estado discreto.
c) No es posible, puesto que el proceso seŕıa función de una variable que solo toma un
conjunto numerable de valores y tal función solo tomaŕıa, por lo tanto, un conjunto numerable
de valores.
15. Está a tiempo continuo, puesto que t es un parámetro real sin ninguna restricción. Es de
estado discreto, puesto que con t fijado, solo puede tomar dos valores: cos t o sin t.
16. Las dos primeras son realizaciones. ϕ1(t) = (1 − t)2 = 1 − 2t + t2 se obtiene cuando
A = 1, B =
√
2. ϕ2(t) se obtiene cuando A =
√
2, B =
√
3. ϕ3(t) no es realización, puesto
que requiere B =
√
5 > 2, mientras que B toma valores entre 1 y 2.
			Introducción
			Objetivos
			Definición de proceso estocástico
			Procesos a tiempo continuo y a tiempo discreto
			Procesos de estado continuo y de estado discreto
			Ejemplos de procesos estocásticos
			Procesos representables explícitamente en términos de variables aleatorias
			Procesos con infinitos grados de libertad aleatorios
			Resumen
			Actividades
			Solucionario
modulo6.pdf
Caracterización 
estadística y 
parámetros 
de los procesos 
estocásticos
PID_00253301
Josep Maria Aroca
Tiempo mínimo de dedicación recomendado: 4 horas
Los textos y las imágenes publicados en esta obra están sujetos –salvo que se indique lo contrario–
a una licencia de Reconocimiento-NoComercial-SinObraDerivada (BY-NC-ND) v.3.0 España de
Creative Commons. Podéis copiarlos, distribuirlos y transmitirlos públicamente siempre que citéis
el autor y la fuente (FUOC. Fundació per a la Universitat Oberta de Catalunya), no hagáis un
uso comercial de ellos y no hagáis obra derivada. La licencia completa se puede consultar en
http: // creativecommons. org/ licenses/ by-nc-nd/ 3. 0/ es/ legalcode. es .
http://creativecommons.org/licenses/by-nc-nd/3.0/es/legalcode.es
CC-BY-NC-ND • PID 00253301 Caracterización estad́ıstica y parámetros de los procesos...
Índice
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1. Funciones de densidad y distribución de orden n . . . . . . . . . . . . 7
2. Parámetros de un proceso estocástico. Funciones de valor
medio, autocorrelación y autocovarianza. Potencia . . . . . . . . . . . 14
3. Ejemplos de cálculo de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4. Parámetros cruzados. Procesos independientes . . . . . . . . . . . . . . . 22
Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Actividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Solucionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
CC-BY-NC-ND • PID 00253301 5 Caracterización estad́ıstica y parámetros de los procesos...
Introducción
Véase también
Recordad que los conceptos
de función de probabilidad y
de densidad de variables
aleatorias discretas y
continuas se estudian en el
módulo “Variables
aleatorias”.
Como hemos visto en módulos anteriores, las variables aleatorias se describen
por medio de una función de probabilidad (caso discreto) o de una función de
densidad (caso continuo) que contiene toda la información sobre la distribución
estad́ıstica de la variable. Después, a través de medias se definen parámetros
como la esperanza (valor medio) o la varianza. En el caso de los procesos
estocásticos se definen magnitudes similares, que tienen importancia especial
porque la caracterización estad́ıstica completa puede ser muy dif́ıcil de conocer
en algunos casos prácticos.
En este módulo definiremos las funciones que caracterizan toda la
estad́ıstica de
un proceso estocástico. Comenzaremos definiendo las funciones de distribución
y de densidad de orden n en el apartado 1. A continuación, en el apartado 2,
definiremos una serie de parámetros caracteŕısticos de los procesos estocásticos,
como son las funciones de valor medio, la autocorrelación, la covarianza y la
potencia. En el apartado 3 veremos algunos ejemplos de cálculo de parámetros.
En la práctica, suele haber métodos más o menos directos para obtener estos
parámetros. Aqúı, además de utilizar los métodos directos, emplearemos tam-
bién las funciones de densidad del proceso para dar una visión completa del
tema. En el apartado 4 veremos qué son los parámetros cruzados que aparecen
cuando comparamos dos procesos estocásticos entre śı.
CC-BY-NC-ND • PID 00253301 6 Caracterización estad́ıstica y parámetros de los procesos...
Objetivos
Los objetivos que debe alcanzar el estudiante una vez trabajados los materiales
didácticos de este módulo son:
1. Entender cómo se caracteriza estad́ısticamente un proceso estocástico.
2. Conocer los parámetros de un proceso estocástico.
3. Calcular estos parámetros para ciertos tipos de proceso.
4. Caracterizar la relación entre dos procesos estocásticos y obtener sus paráme-
tros cruzados.
CC-BY-NC-ND • PID 00253301 7 Caracterización estad́ıstica y parámetros de los procesos...
1. Funciones de densidad y distribución de orden n
.
En este apartado consideraremos procesos a tiempo continuo X(t). Tened en
cuenta que los procesos a tiempo discreto tienen un tratamiento formalmente
similar. A diferencia de lo que sucede con variables o vectores aleatorios, no
existe una función de densidad del proceso en conjunto. La caracterización se
realiza por medio de la idea siguiente.
Véase también
La estad́ıstica de los vectores
aleatorios se estudia en el
módulo “Vectores aleatorios”
de esta asignatura.
Fijados n instantes diferentes t1, t2, . . . , tn, los valores que toma el proceso,
X(t1), X(t2), . . . , X(tn), constituyen un vector aleatorio n-dimensional. Como
ya sabemos describir de manera completa la estad́ıstica de los vectores alea-
torios, caracterizaremos la estad́ıstica de un proceso estocástico del siguiente
modo.
Procesos estocásticos y
vectores aleatorios
Para evaluar un proceso
estocástico fijaremos una
serie de instantes diferentes y
consideraremos que en cada
instante de tiempo tenemos
una variable aleatoria
ordinaria. El número n de
instantes que fijemos nos dirá
cuál es la dimensión del
vector aleatorio.
.
Proposición 1.1. La distribución probabiĺıstica de un proceso estocásti-
co X(t) queda completamente determinada si, para todo n ≥ 1 y para
toda elección de los instantes t1, t2, . . . , tn, conocemos la distribución
probabiĺıstica del vector aleatorio (X(t1), X(t2), . . . , X(tn)).
Es decir, podemos conocer la distribución probabiĺıstica de un proceso es-
tocástico, X(t), a partir de la caracterización de las variables aleatorias en
ciertos instantes ti. En rigor, puede haber procesos que no verifiquen este resul-
tado. Fuera de estos casos patológicos, los procesos de interés en las aplicaciones
prácticas cumplen el enunciado anterior.
La proposición 1.1 nos sugiere hablar de muestra de n instantes para referirnos
a la selección de n valores diferentes de t y los valores que toma en ellos el
proceso X(t).
.
Definición 1.1. Una muestra de tamaño n (n = 1, 2, 3, . . .) consis-
te en la elección de n instantes diferentes t1, t2, . . . , tn y en el vector
aleatorio asociado a estos instantes (X(t1), X(t2), . . . , X(tn)).
La distribución estad́ıstica de un proceso estocástico queda determinada si
conocemos la distribución de todas las muestras posibles. Esto da lugar a los
conceptos siguientes.
CC-BY-NC-ND • PID 00253301 8 Caracterización estad́ıstica y parámetros de los procesos...
.
Definición 1.2. Las funciones de distribución de orden n de un
proceso estocástico X(t) a tiempo continuo son las funciones de distri-
bución de los vectores aleatorios asociados a las muestras de tamaño n.
Las representamos F (x1, x2, . . . , xn; t1, t2, . . . , tn). Entonces
F (x1, x2, . . . , xn; t1, t2, . . . , tn) = (1)
P (X(t1) ≤ x1, X(t2) ≤ x2, . . . , X(tn) ≤ xn).
Véase también
Las variables aleatorias
ordinarias unidimensionales
se estudian en el módulo
“Variables aleatorias”.
Según esta definición, la función de distribución de orden n del proceso es-
tocástico X(t) se define como la probabilidad de que el proceso muestreado
en estos instantes de tiempo, es decir, X(ti), sea igual o menor que un cier-
to valor xi para i = 1, ..., n. Fijaos en que esta es la definición de función
de distribución que hab́ıamos considerado para variables aleatorias ordinarias
unidimensionales. Aqúı hemos extendido esta definición al caso n-dimensional.
Una vez definidas las funciones de distribución, vamos ahora con las fun-
ciones de densidad.
Observación
Fijaos en que la definición 1.2
de función de distribución la
podemos aplicar a procesos
X(t) de estado tanto
discreto como continuo. En
la definición 1.3, cuando
hablamos de funciones de
densidad, se especifica que el
proceso estocástico X(t)
debe ser de estado continuo.
.
Definición 1.3. Las funciones de densidad de orden n de un proceso
estocástico X(t) de estado continuo son las funciones de densidad
de los vectores aleatorios asociados a las muestras de tamaño n. Las
representamos f(x1, x2, . . . , xn; t1, t2, . . . , tn). Entonces
F (x1, x2, . . . , xn; t1, t2, . . . , tn) =
∫ x1
−∞
∫ x2
−∞ · · ·
∫ xn
−∞ f(y1, y2, . . . , yn; t1, t2, . . . , tn) dy1dy2 · · · dyn. (2)
Observad que en esta definición especificamos que el proceso estocástico X(t)
es de estado continuo, ya que si recordáis el módulo “Variables aleatorias”,
hab́ıamos definido la función de distribución para variables discretas y conti-
nuas, mientras que la función de densidad la hab́ıamos definido únicamente
para variables continuas.
La caracteŕıstica que śı que hab́ıamos definido para las variables aleatorias
discretas era la función de probabilidad. Vamos ahora a extender esta definición
al caso n-dimensional, es decir, al caso de un proceso estocástico X(t) de estado
discreto y muestreado para ciertos instantes de tiempo ti.
CC-BY-NC-ND • PID 00253301 9 Caracterización estad́ıstica y parámetros de los procesos...
Observación
Recordad que en el módulo
“Variables aleatorias”
hab́ıamos definido la función
de probabilidad únicamente
para las variables aleatorias
discretas, ya que en este caso
pod́ıamos asociar una
probabilidad a un resultado
concreto. La definición 1.4,
por tanto, la podremos
aplicar a procesos
estocásticos X(t) a tiempo
continuo y de estado discreto.
.
Definición 1.4. La función de probabilidad de orden n de un pro-
ceso estocástico X(t) de estado discreto es la función de probabilidad
del vector aleatorio asociado a las muestras de tamaño n. La represen-
tamos P (x1, x2, . . . , xn; t1, t2, . . . , tn). Entonces
P (x1, x2, . . . , xn; t1, t2, . . . , tn) =
P (X(t1) = x1, X(t2)=x2, . . . , X(tn) = xn).
(3)
Aśı, la caracterización de un proceso estocástico depende de si el proceso es de
estado continuo o de estado discreto, tal como se enuncia a continuación.
.
La distribución estad́ıstica de un proceso de estado conti-
nuo queda determinada si conocemos las funciones de densidad
f(x1, x2, . . . , xn; t1, t2, . . . , tn) para todos los valores de t1, t2, . . . , tn y
para todo n ≥ 1.
La distribución estad́ıstica de un proceso de estado discreto
queda determinada si conocemos las funciones de probabilidad
P (x1, x2, . . . , xn; t1,
t2, . . . , tn) para todos los valores de t1, t2, . . . , tn y
para todo n ≥ 1.
Hay una serie de v́ınculos entre estas funciones. Si tomamos la densidad de
orden n y calculamos la función de densidad marginal de k < n de sus variables,
el resultado debe ser la densidad de orden k. Tenemos, pues, una jerarqúıa de
funciones vinculadas. Por ejemplo, si consideramos el orden igual a 1, estamos
tomando nuestro proceso estocástico y tomando una única muestra (fijando un
valor de t = t1). En este caso tenemos la densidad de orden 1 f(x1; t1) que nos
describe la variable unidimensional X(t1) (t1 fijado).
Probabilidad y densidad
marginal
En el módulo “Vectores
aleatorios” vimos que la
función de probabilidad
marginal y densidad marginal
de un vector consist́ıa en
sumar (para variables
discretas) o integrar (para
variables continuas) respecto
a todos los valores posibles
del resto de las variables.
Para el caso n = 2 y para
variables discretas, por
ejemplo, teńıamos:
P (X = ai) =
m∑
j=1
P (X =
ai, Y = bj).
Si queremos calcular la densidad de orden 2, hemos de fijar dos instantes de
tiempo, t1 y t2, que darán como resultado dos variables aleatorias, x1 y x2.
La densidad de orden 2, f(x1, x2; t1, t2), nos describe el vector bidimensional
(X(t1), X(t2)). Si ahora en este vector calculamos la densidad marginal de
X(t1), el resultado ha de ser la densidad correspondiente de primer orden. Es
decir:
f(x1; t1) =
∫ ∞
−∞
f(x1, x2; t1, t2) dx2. (4)
Fijaos en que para calcular la densidad marginal de la variable X(t1) hacemos
la integral respecto a la variable, x2.
CC-BY-NC-ND • PID 00253301 10 Caracterización estad́ıstica y parámetros de los procesos...
Los valores t1, t2, . . . , tn figuran en estas funciones para recordarnos en qué
instantes tomamos las variables, es decir, en qué instantes estamos tomando
muestras del proceso estocástico X(t). Lo que nos interesa en tanto que fun-
ciones de densidad es la dependencia de las xi. Las funciones de densidad (o de
probabilidad) de orden n se tratan como las de un vector n-dimensional cual-
quiera. Por ejemplo, la condición de normalización de la densidad de primer
orden es
Condición de normalización
Como vimos en la
proposición 2.3 del módulo
“Variables aleatorias”, el área
total bajo la curva que
describe la función de
densidad es igual a 1.
∫ ∞
−∞
f(x; t)dx = 1. (5)
La obtención de este conjunto de funciones es, en general, una tarea complicada.
Afortunadamente, en las aplicaciones no siempre necesitamos toda esta infor-
mación, sino que normalmente tenemos suficiente con las funciones de orden
bajo, como por ejemplo las de primer y segundo orden. En el caso de procesos
que dependen expĺıcitamente de una o pocas variables aleatorias suele ser fácil
obtenerlas, como muestran los ejemplos siguientes.
Ejemplo 1.1
Dada la variable aleatoria unidimensional A, uniforme en el intervalo [0, 1], definimos el
proceso X(t) = eAt, t ≥ 0.
Figura 1
Este proceso estocástico es
una función exponencial en la
que el parámetro A es una
variable aleatoria uniforme
dentro del intervalo [0, 1].
Figura 1. Realización del proceso X(t)
t
50
X
(t
)
0 2 4 6
0
A = 0,7
Como A vaŕıa sobre todo un intervalo real, eAt para t fijado, también puede tomar valores
sobre todo un intervalo. Por tanto, X(t) es un proceso de estado continuo. Calculemos
su densidad de primer orden para ilustrar las ideas anteriores. Haremos el cálculo por
medio de la función de distribución.
La función de densidad de la variable A (variable aleatoria continua y de tipo uniforme) es: Véase también
Recordad la definición de la
variable aleatoria uniforme
que vimos en el subapartado
3.2.1 del módulo “Variables
aleatorias”.
fA(a) =
 1, 0 ≤ a ≤ 1,
0, en otros casos
CC-BY-NC-ND • PID 00253301 11 Caracterización estad́ıstica y parámetros de los procesos...
y su función de distribución vale:
FA(a) =

0, a < 0,
a, 0 ≤ a < 1,
1, a ≥ 1.
Recordemos también que FA(a) = P (A ≤ a). Es decir, la función de distribución de la
variable aleatoria A evaluada en el punto a es la probabilidad de que la variable aleatoria
A adquiera un valor menor o igual que a. Ahora, si fijamos t, el proceso estocástico
X(t) puede tomar cualquier valor en el intervalo [1, et]. Si x se encuentra dentro de este
intervalo, la función de distribución de primer orden es:
F (x; t) = P (X(t) ≤ x) = P (eAt ≤ x) = P
(
A ≤
lnx
t
)
= FA
(
lnx
t
)
=
lnx
t
.
Fijaos en que en la tercera igualdad de la expresión anterior lo que hemos hecho es aislar
la variable aleatoria A de manera que podamos caracterizar el proceso estocástico X(t)
en función de las caracteŕısticas de la variable A.
En la última igualdad de la expresión anterior hemos sustituido el valor de a por el
argumento que aparece en la función de distribución.
* Tal como hab́ıamos visto en el
módulo “Variables aleatorias”.
Decimos que la función de distribución es de primer orden porque únicamente hemos
fijado un único valor de t y, por tanto, tenemos una única variable aleatoria. Si que-
remos calcular la función de densidad de primer orden, hemos de derivar la función de
distribución*,
f(x; t) =
d
dx
F (x; t) =
1
tx
, 1 ≤ x ≤ et.
Comprobemos la condición de normalización:
∫ ∞
−∞
f(x; t) dx =
∫ et
1
1
tx
dx =
[
1
t
lnx
]x=et
x=1
= 1.
En este tipo de problemas es importante manipular con cuidado los valores ĺımi-
te y la dependencia en los parámetros temporales. Veamos un ejemplo numérico
de esto partiendo del proceso X(t) que hemos visto en el ejemplo 1.1.
Ejemplo 1.2
Partiendo del ejemplo anterior, consideramos que un dispositivo electrónico se activa
cuando X(t) sobrepasa el valor 2. ¿Cuál es la probabilidad p(t) de que en el instante t
esté activado?
Se trata de calcular P (X(t) > 2). Lo primero que hemos de tener en cuenta es que el
conjunto de valores posibles para X(t) es el intervalo [1, et], que vaŕıa con t. Para que la
probabilidad anterior no sea nula, es necesario que este intervalo contenga valores mayores
que 2.
Por tanto, p(t) es diferente de cero a partir del momento en el que 2 < et. Si eso sucede,
P (X(t) > 2) = 1− P (X(t) ≤ 2) = 1− F (2; t) = 1− ln 2
t
. Es decir:
p(X(t) > 2) =

0, 0 ≤ t ≤ ln 2,
1−
ln 2
t
, t > ln 2.
CC-BY-NC-ND • PID 00253301 12 Caracterización estad́ıstica y parámetros de los procesos...
Figura 2
La probabilidad p(t) es la
probabilidad de que el
proceso X(t) tome un valor
mayor que 2.
Figura 2. La función p(t)
t
1
0,8
0,6
0,4
0,2
0
p
(t
)
0 2 4 6 8 10
Ejemplo 1.3
Modelizamos la llegada de ciertos paquetes cŕıticos de información en una red con la
variable aleatoria A. Esta variable es uniforme en [0, 1]. Queremos que cuando llegue uno
de estos paquetes de información se genere una señal de sincronización que nos avise de
que este acontecimiento se ha producido. A partir de estos requisitos definimos un nuevo
proceso de la forma:
X(t) =
 0, 0 ≤ t < A,
1, A ≤ t ≤ 1.
Es decir, X(t) pasa bruscamente de 0 a 1 en el instante t = A.
Figura 3
Una posible realización del
proceso estocástico a tiempo
continuo y de estado discreto
X(t).
Figura 3. Realización del proceso X(t)
t
A = 0,3
2
1,5
1
0,5
0
X
(t
)
0 0,2 0,4 0,6 0,8 1
CC-BY-NC-ND • PID 00253301 13 Caracterización estad́ıstica y parámetros de los procesos...
El proceso X(t) es de estado discreto, ya que en cualquier instante solo puede tomar los
valores 0 o 1. La función de probabilidad de primer orden P (n; t) = P (X(t) = n) nos
da la probabilidad de que X(t) valga n, donde n solo puede ser 0 o 1. Aśı, hemos de
determinar
P (0; t) = P (X(t)=0)
= P (t < A) = 1− P (A ≤ t) = 1− FA(t) = 1− t,
P (1; t) = P (X(t)=1) = P (A ≤ t) = FA(t) = t.
Véase también
En el apartado 2 de este
módulo definiremos, de la
misma manera como lo
hicimos para las variables
aleatorias ordinarias, los
parámetros más relevantes de
un proceso estocástico: el
valor medio, la función de
autocorrelación y la
autocovarianza.
Introduciremos también un
nuevo concepto: la función
potencia.
Es inmediato verificar que esta función está normalizada: P (0; t)+P (1; t) = (1−t)+t = 1.
En muchos casos prácticos no es posible hacer un estudio tan detallado como en los
ejemplo anteriores. Muchos procesos se analizan mediante algunos parámetros que los
caracterizan. En el apartado siguiente definimos estos parámetros.
CC-BY-NC-ND • PID 00253301 14 Caracterización estad́ıstica y parámetros de los procesos...
2. Parámetros de un proceso estocástico. Funciones
de valor medio, autocorrelación y autocovarianza.
Potencia
.
De manera análoga a lo que hicimos con las variables aleatorias ordinarias, se
definen parámetros estad́ısticos para los procesos estocásticos. Dado que un
proceso es una variable aleatoria dependiente de un ı́ndice t, ahora tendremos,
en lugar de parámetros numéricos, funciones con dependencia temporal.
En el ejemplo 1.1 del inversor con el que empieza el módulo “Introducción a los procesos
estocásticos”, una estimación de los beneficios que habrá obtenido el d́ıa i viene determi-
nada por el valor medio de la variable aleatoria Xi. Como este valor medio depende, en
principio, de i, resulta también una función dependiente de esta variable independiente.
Ejemplo del inversor
Recordad que en el ejemplo
del inversor del módulo
“Introducción a los procesos
estocásticos”, α era el
beneficio conseguido que se
daba con una probabilidad p,
y le dimos el valor de α = 3.
El valor β eran las pérdidas
que se daban con una
probabilidad (1− p), y le
asignamos un valor de β = 2.
En este ejemplo particular no es dif́ıcil de evaluar porque Xi es la suma de las ganancias
obtenidas los primeros i d́ıas. La ganancia obtenida en un d́ıa cualquiera tiene como valor
medio pα+ (1− p)(−β) = 3p− 2(1− p) = 5p− 2. Como el beneficio en i d́ıas es la suma
de las ganancias en cada uno de los d́ıas, resulta que E(Xi) = (5p − 2)i y, de media,
el beneficio tiene comportamiento lineal. De hecho, con este resultado ya vimos que la
inversión funcionará bien cuando p > 2
5
.
.
Definición 2.1. La función de valor medio de un proceso estocástico
X(t) es
m(t) = E(X(t)). (6)
La función m(t) es simplemente el valor medio de la variable X(t) en t fijado.
La manera de calcularlo depende de cómo se defina el proceso y de si este
es de estado continuo o discreto. Para un proceso de estado continuo del que
conocemos la densidad de primer orden resulta:
Véase también
Recordad las definiciones de
valor medio, esperanza o
momento de orden 1 para
variables aleatorias discretas
y continuas de los
subapartados 2.2 y 3.3 del
módulo “Variables
aleatorias”.
m(t) =
∫ ∞
−∞
xf(x; t) dx. (7)
Si el proceso es de estado discreto, la expresión es:
m(t) =
∑
x
xP (x; t), (8)
donde la suma recorre los posibles valores de X(t). Fijaos en que el sumatorio y
la integral están hechos sobre la variable x; por tanto, nos queda la dependencia
sobre la variable independiente t.
Ya veremos en los ejemplos que a veces no es necesario conocer las funciones
de primer orden para determinar los parámetros.
CC-BY-NC-ND • PID 00253301 15 Caracterización estad́ıstica y parámetros de los procesos...
La función de valor medio da una idea del comportamiento medio de las dis-
tintas realizaciones, pero a veces no tenemos suficiente con esta información.
La función m(t) no mide nada de la relación entre los valores de la función en
instantes diferentes.
En el ejemplo del inversor, hemos determinado que el valor medio vale (5p−2)i. Pongamos
que p = 0,7. La estimación del bebeficio pasados 10 d́ıas (X10) seŕıa este valor medio,
(5 · 0,7− 2)10 = 15.
Pero supongamos que nos planteamos la estimación de X10 el octavo d́ıa y que este d́ıa
ya sabemos que la ganancia vale X8 = 14. Ahora la estimación de X10 ≈ 15 parece baja,
ya que los dos d́ıas siguientes podemos ganar 3 + 3 = 6 con probabilidad 0,72 = 0,49,
podemos ganar 3 − 2 = 1 con probabilidad 2 · 0,7 · 0,3 = 0,42 y podemos “ganar”
−2 − 2 = −4 con probabilidad 0,32 = 0,09. El valor medio del beneficio de estos dos
d́ıas es 6 · 0,49 + 1 · 0,42 + (−2) · 0,9 = 3,18. Aśı, es más correcto tomar como estimación
de X10 el valor 14 + 3,18 = 17,18. Lo que sucede es que las variables X8 y X10 tienen
una cierta correlación, de manera que conocer el valor de una afecta a la distribución de
probabilidad de la otra.
En el caso de procesos estocásticos es habitual tener que hacer alguna predicción
de la evolución futura a partir de los resultados del presente o del pasado.
Para poder hacer esto, necesitamos alguna información de la correlación entre
las variables X(t) en instantes diferentes. La correlación nos da una idea de
la relación entre las variables X(t) en instantes diferentes y, por tanto, nos
permitirá hacer algún tipo de predicción de valores futuros a partir de valores
que ya hemos obtenido. Esto motiva los conceptos siguientes.
Función de autocorrelación
En los subapartados 1.3 y 2.4
del módulo “Vectores
aleatorios” se define la
esperanza del producto de
dos variables aleatorias de un
vector bidimensional. En este
caso denominamos función
de autocorrelación la
esperanza del producto del
proceso X(t) evaluado en dos
instantes de tiempo t1 y t2.
.
Definición 2.2. La función de autocorrelación de un proceso es-
tocástico X(t) es
R(t1, t2) = E[X(t1)X(t2)], (9)
donde t1 y t2 son dos instantes de tiempo fijados.
Es decir, la función de autocorrelación es la esperanza del producto del proceso
estocástico evaluado en dos instantes de tiempo diferentes. Fijaos en que es
una propiedad de segundo orden, ya que queda determinada por la densidad
de segundo orden, es decir, depende de dos instantes temporales diferentes. Si
aplicamos esta definición al caso de un proceso estocástico de estado continuo,
obtenemos lo siguiente.
.
Función de autocorrelación para un proceso estocástico de estado conti-
nuo:
R(t1, t2) =
∫ ∞
−∞
∫ ∞
−∞
x1x2f(x1, x2; t1, t2) dx1dx2. (10)
CC-BY-NC-ND • PID 00253301 16 Caracterización estad́ıstica y parámetros de los procesos...
De la definición se obtiene inmediatamente que R(t1, t2) = R(t2, t1). Esto es
útil a veces, ya que implica que es suficiente calcularla para t1 ≤ t2.
El parámetro siguiente de denomina autocovarianza, y se puede obtener a partir
de la autocorrelación, tal como se indica a continuación.
Covarianza
Recordad la definición de
covarianza que se realiza en
el módulo “Vectores
aleatorios” en los
subapartados 1.3 (para
variables discretas) y 2.3
(para variables continuas). Se
define como: Cov(X,Y ) =
E[(X −E(X))(Y −E(Y ))] =
E(XY )− E(X) E(Y ). Fijaos
cómo ahora consideramos las
variables X(t1) y X(t2) en
lugar de X e Y .
.
Definición 2.3. La función de autocovarianza de un proceso es-
tocástico X(t) es
C(t1, t2) = R(t1, t2) −m(t1)m(t2), (11)
donde t1 y t2 son dos instantes de tiempo fijados.
Es decir, la función de autocovarianza es la función de autocorrelación menos
el producto de las funciones valor medio. Es precisamente la covarianza de
las variables X(t1) y X(t2). En efecto, Cov(X(t1), X(t2)) = E(X(t1)X(t2)) −
E(X(t1)) E(X(t2)) y el primer término es R(t1, t2), mientras que el segundo es
m(t1)m(t2). Aśı,
Cov(X(t1), X(t2)) = C(t1, t2). (12)
Por tanto, lo que hab́ıamos denominado covarianza en un vector aleatorio
n-dimensional lo podemos trasladar aqúı
al caso de un proceso estocástico y lo
denominamos función de autocovarianza.
A continuación definimos la potencia media de un proceso estocástico.
Potencia y función de
autocorrelación
Observad que la potencia de
un proceso estocástico X(t),
Pot(t), es la función de
autocorrelación R(t1, t2)
evaluada para un único
instante temporal, es decir,
R(t, t).
.
Definición 2.4. La potencia media de un proceso estocástico X(t) es
Pot(t) = E(X(t)2). (13)
Aśı, vemos que E(X(t)2) = E[X(t)X(t)] = R(t, t). Por lo tanto:
.
Relación entre la potencia y la autocorrelación:
Pot(t) = R(t, t). (14)
CC-BY-NC-ND • PID 00253301 17 Caracterización estad́ıstica y parámetros de los procesos...
Potencia y ley de Ohm
La potencia absorbida por
una resistencia es
P = V I = V
2
R
= I2R. Si
hacemos esta resistencia
igual a la unidad, entonces
P = V 2 = I2.
El término potencia tiene su origen en el hecho de que si X(t) representa un
voltaje o una corriente eléctrica, X(t)2 nos da la potencia absorbida por una
resistencia unidad. Como la función de valor medio solo involucra la densidad
de primer orden (depende de un único instante temporal, t), decimos que es un
parámetro de primer orden. De modo similar, decimos que las funciones de au-
tocorrelación y de autocovarianza son parámetros de segundo orden (dependen
de los dos instantes temporales t1 y t2).
También podemos definir momentos de orden arbitrario n como:
R(n)(t1, t2, . . . , tn) = E[X(t1)X(t2) · · ·X(tn)], (15)
aunque no los utilizaremos. Fijaos en que hablamos de momento de orden n
porque son funciones que dependen de n instantes temporales.
Si tenemos más de un proceso estocástico, X(t), Y (t), etc, podemos aclarar
de qué proceso son los parámetros etiquetándolos con el nombre del proceso:
mX(t), mY (t), RX(t1, t2), CY (t1, t2), PotX(t), etc.
CC-BY-NC-ND • PID 00253301 18 Caracterización estad́ıstica y parámetros de los procesos...
3. Ejemplos de cálculo de parámetros
.
En este apartado veremos algunos ejemplos en los que calcularemos los pará-
metros de diferente orden que hemos definido en los dos apartados anteriores.
Es decir, calcularemos la función de valor medio, la función de autocorrelación,
la función de autocovarianza y la potencia.
Ejemplo 3.1
Calculemos los parámetros de primer y segundo orden para el proceso del ejemplo 1.1.
Recordad que el ejemplo 1.1 de este módulo consist́ıa en el proceso estocásticoX(t) = eAt,
con t ≥ 0 y A una variable aleatoria uniforme en el intervalo [0, 1].
Como ya conocemos la densidad de primer orden, resulta fácil obtener la función de valor
medio:
Función de densidad de
primer orden
Recordad que para este
proceso estocástico hab́ıamos
calculado la función de
densidad de primer orden
como: f(x; t) = 1
tx
para
1 ≤ x ≤ et.
m(t) =
∫ ∞
−∞
xf(x; t) dx =
∫ et
1
x
1
tx
dx =
et − 1
t
.
No obstante, existe una manera más directa de obtener el resultado anterior. Cuando un
proceso se expresa expĺıcitamente en términos de algunas variables aleatorias, podemos
calcular directamente sus parámetros utilizando el teorema de la esperanza:
Teorema de la esperanza
El teorema de la esperanza
nos permite calcular la
función de valor medio del
proceso X(t) según la
función de densidad de la
variable aleatoria A sin tener
que conocer la función de
densidad del proceso
estocástico.
m(t) = E(eAt) =
∫ ∞
−∞
eatfA(a) da =
∫ 1
0
eat · 1 da =
eat
t
∣∣∣∣a=1
a=0
=
et − 1
t
.
De manera similar obtenemos la autocorrelación:
R(t1, t2) = E[X(t1)X(t2)] = E(e
At1eAt2 ) = E(eA(t1+t2)) =
et1+t2 − 1
t1 + t2
.
Ejemplo 3.2
Ejemplo 1.3
El ejemplo 1.3 de este
módulo consiste en una
función escalón que cambia
del valor 0 al valor 1 en un
valor x que depende de la
variable aleatoria uniforme A,
definida en el intervalo [0, 1].
Calculemos la función de valor medio del proceso del ejemplo 1.3. Utilizando la función
de probabilidad de primer orden:
m(t) = 0 · P (0; t) + 1 · P (1; t) = t.
Con el teorema de la esperanza, explicitamos la dependencia de A poniendo X(t) =
Φ(t, A), que vale 0 o 1 según si t < A o t > A, respectivamente:
m(t) =
∫ 1
0
Φ(t, a)fA(a) da =
∫ 1
t
0 · 1 da+
∫ t
0
1 · 1 da = t.
CC-BY-NC-ND • PID 00253301 19 Caracterización estad́ıstica y parámetros de los procesos...
La función de autocorrelación se puede calcular siguiendo el procedimiento anterior:
R(t1, t2) =
∫ 1
0
Φ(t1, a)Φ(t2, a)fA(a) da =
∫ mı́n(t1,t2)
0
1 · 1 da = mı́n(t1, t2).
Dado que Φ(t1, a)Φ(t2, a) vale cero excepto cuando a < t1 y a < t2, es decir, cuando
a < mı́n(t1, t2).
Ejemplo 3.3
Un generador de señal produce un tono en frecuencia pero a causa de las condiciones
ambientales presenta algunas derivas en la amplitud y la fase que genera. Calculemos los
parámetros de la oscilación aleatoria siguiente:
X(t) = Φ(t, A,B)
Advertid que ahora nuestro
proceso estocástico X(t)
contiene la variable
independiente t y depende
también de las variables
aleatorias A y B. De esta
manera podemos escribir:
X(t) = Φ(t, A,B).
X(t) = A cos(ωt+B),
donde ω es una constante, A es una variable aleatoria exponencial de valor medio K, B
es una variable aleatoria uniforme en [0, 2π] y A y B son independientes.
Advertid que tenemos toda la información sobre la variable bidimensional (A,B), de
manera que el proceso está bien especificado. Su valor medio vale
m(t) = E(A cos(ωt+B)) = E(A) E(cos(ωt+B)),
ya que A y B son variables independientes (y, por tanto, también lo son A y cos(ωt+B)).
Ahora, nos dicen que E(A) = K y podemos calcular, por el teorema de la esperanza,
E(cos(ωt+B)) =
∫ ∞
−∞
cos(ωt+ b)fB(b) db =
∫ 2π
0
cos(ωt+ b)
1
2π
db = 0.
Aśı, concluimos que m(t) = 0.
Oscilaciones aleatorias
En el ejemplo 4.2 del módulo
“Introducción a los procesos
estocásticos” vimos una
función sinusoidal en la que
la amplitud y la fase eran dos
variables aleatorias
exponencial y uniforme,
respectivamente.
Como suced́ıa en el ejemplo 4.2 del módulo “Introducción a los procesos estocásticos”,
el valor medio es nulo. Esto se debe nuevamente al hecho de que en cualquier instante
determinado las diferentes realizaciones difieren en una fase que toma valores sobre un
periodo, de modo que tenemos contribuciones positivas y negativas con el mismo peso.
La función de autocorrelación se calcula de manera análoga:
R(t1, t2) = E(A cos(ωt1 +B)A cos(ωt2 +B)) = E(A
2) E(cos(ωt1 +B) cos(ωt2 +B)).
Variable exponencial
Una variable exponencial
X ∼ Exp(λ) té
E(X) = λ−1, y entonces el
parámetro λ = E(X)−1, y
Var(A) = λ−2 = E(X)2.
El primer factor es, si recordamos la propiedad de la varianza Var(A) = E(A2)− E(A)2,
E(A2) = Var(A) + E(A)2 = K2 +K2 = 2K2.
Para el segundo factor, transformamos el producto de coseno mediante la fórmula trigo-
nométrica:
cosα cosβ =
1
2
(cos(α+ β) + cos(α− β))
CC-BY-NC-ND • PID 00253301 20 Caracterización estad́ıstica y parámetros de los procesos...
y obtenemos:
E(cos(ωt1 +B) cos(ωt2 +B)) = E
(
1
2
[cos(ω(t1 + t2) + 2B) + cos(ω(t1 − t2))]
)
=
1
2
∫ 2π
0
(cos(ω(t1 + t2) + 2b) + cos(ω(t1 − t2)))
1
2π
db =
1
2
cos(ω(t1 − t2)).
Aśı, llegamos al resultado:
R(t1, t2) = K
2 cosω(t1 − t2).
Advertid que, en este caso, C(t1, t2) = R(t1, t2), ya que m(t) = 0. La potencia vale
Pot(t) = K2.
Vemos que la autocorrelación, en este ejemplo, solo depende de la distancia entre los
instantes t1 y t2. Además, cuando t2 = t1 es máxima. Esto es un comportamiento t́ıpico,
ya que cuando t2 = t1 las variables X(t1) y X(t2) son la misma y, por tanto, tenemos la
máxima correlación.
Ejemplo 3.4
Sea B una variable aleatoria exponencial de esperanza 1. Definimos un proceso estocástico
de la manera siguiente:
X(t) =

t, 0 ≤ t < B,
B, t ≥ B.
¿Cómo son sus realizaciones? En la figura 4 mostramos una de ellas.
Figura 4
En la figura se muestra una
realización posible del
proceso estocástico del
ejemplo 3.4. X(t) toma el
valor de t hasta llegar a un
valor B. B es una variable
aleatoria exponencial de valor
medio igual a 1.
Figura 4. Realización de X(t). (B = 1,5)
4,0
t
4,0
3,5
3,0
2,5
2,0
1,5
1,0
0,5
0,0
X
(t
)
0,0 0,5 1,0 1,5 2,0 3,0 3,52,5
Calculemos la función de valor medio del proceso X(t). Se trata de m(t) = E(X(t)).
Como X(t) depende de una variable B, utilizaremos el teorema de la esperanza. X(t) es
una función de B. Advertid que la función de densidad de B es fB(b) = e
−b, b ≥ 0. En
CC-BY-NC-ND • PID 00253301 21 Caracterización estad́ıstica y parámetros de los procesos...
la definición de X(t) vemos que X(t) = B si 0 ≤ B ≤ t mientras que X(t) = t si B ≥ t.
Aśı separaremos la integración sobre b según estos dos casos:
m(t) =
∫ ∞
−∞
X(t)fB(b) db =
∫ t
0
b e−bdb+
∫ ∞
t
t e−bdb
= (−(t+ 1)e−t + 1) + (te−t) = 1− e−t.
La función m(t) se muestra en la figura 5. Aunque las realizaciones muestran un punto
en el que la función no es derivable, el valor medio no muestra ninguna irregularidad.
Figura 5
La gráfica muestra el valor
medio del proceso X(t).
Figura 5. Valor medio de X(t)
4,0
t
2,0
1,8
1,6
1,4
1,2
1,0
0,8
0,6
0,4
0,2
0,0
m
(t
)
0,0 0,5 1,0 1,5 2,0 3,0 3,52,5
En este punto podemos ir un paso más allá y preguntarnos si, de la misma
manera que hemos relacionado los valores de un proceso estocástico definidos
en diferentes instantes temporales, podemos relacionar procesos estocásticos
diferentes entre śı. Eso es lo que haremos en el apartado 4 de este módulo.
CC-BY-NC-ND • PID 00253301 22 Caracterización estad́ıstica y parámetros de los procesos...
4. Parámetros cruzados. Procesos independientes
.
Un proceso estocástico X(t) implica la existencia de una variable aleatoria di-
ferente para cada instante t. Los parámetros que hemos definido anteriormente
miden propiedades de este conjunto de variables. Se puede dar el caso, también,
de tener que considerar más de un proceso estocástico. Si X(t) e Y (t) son dos
procesos estocásticos, podemos estudiar su estad́ıstica conjunta. Esto da lugar
a nuevos parámetros. Veámoslos a continuación.
.
Definición 4.1. La función de correlación cruzada de dos procesos
estocásticos X(t) e Y (t) es
RXY (t1, t2) = E[X(t1)Y (t2)], (16)
donde t1 y t2 son dos instantes de tiempo fijados.
Fijaos en que la definición matemática es la misma que la que hab́ıamos hecho
en el apartado anterior, pero ahora evaluamos el proceso X en el instante de
tiempo t1 y el proceso Y en t2. Por tanto, podemos decir que la autocorrelación
de X(t) seŕıa la correlación cruzada de X(t) con él mismo.
.
Definición 4.2. La función de covarianza de dos procesos estocásti-
cos X(t) e Y (t) es
CXY (t1, t2) = RXY (t1, t2) −mX(t1)mY (t2), (17)
donde t1 y t2 son dos instantes de tiempos fijados.
Observad que la función de covarianza de las variables X(t1) e Y (t2), CXY (t1, t2)
tiene la misma forma que la función de autocovarianza que hemos visto en la
definición 2.3 de este módulo. Alĺı hab́ıamos comparado el proceso X(t) en
CC-BY-NC-ND • PID 00253301 23 Caracterización estad́ıstica y parámetros de los procesos...
dos instantes de tiempo diferentes. Ahora lo que comparamos son dos procesos
estocásticos, X(t) e Y (t), en dos instantes de tiempo diferentes.
.
Definición 4.3. Dos procesos estocásticos X(t) e Y (t) son indepen-
dientes si cualquier muestra de X(t) es independiente de cualquier
muestra de Y (t).
En particular, las variables X(t1), Y (t2) son independientes para todo
t1, t2.
Si X(t), Y (t) son procesos independientes, entonces CXY (t1, t2) = 0, ya que
por independencia E[X(t1)Y (t2)] = E(X(t1)) E(Y (t2)), es decir, RXY (t1, t2) =
mX(t1)mY (t2).
Ejemplo 4.1
Modelicemos el nivel de ocupación de una ĺınea de comunicación mediante un proceso
estocástico que denominamos Z(t). Sabemos que el nivel de ocupación de la ĺınea se
debe a un proceso estocástico de entrada que denominamos X(t) y a una señal de ruido
que denominamos Y (t). Por tanto, podemos expresar el proceso Z(t) como suma de los
procesos X(t) e Y (t):
Z(t) = X(t) + Y (t). (18)
Supongamos que X(t) tiene valor medio mX(t) y autocorrelación RX(t1, t2), e Y (t) tiene
valor medio mY (t) y autocorrelación RY (t1, t2).
Utilizando las propiedades de la esperanza encontramos los parámetros estad́ısticos si-
guientes:
Valor medio de Z(t):
mZ(t) = mX(t) +mY (t). (19)
Autocorrelación de Z(t):
RZ(t1, t2) = RX(t1, t2) +RY (t1, t2) +RXY (t1, t2) +RXY (t2, t1). (20)
Advertid que si X(t) e Y (t) son independientes:
RZ(t1, t2) = RX(t1, t2) +RY (t1, t2) +mX(t1)mY (t2) +mX(t2)mY (t1). (21)
Haciendo t1 = t2 = t encontramos la potencia de la suma de procesos independientes:
PotZ(t) = PotX(t) + PotY (t) + 2mX(t)mY (t). (22)
CC-BY-NC-ND • PID 00253301 24 Caracterización estad́ıstica y parámetros de los procesos...
Resumen
En este módulo hemos estudiado cómo podemos caracterizar estad́ısticamente
los procesos estocásticos y sus parámetros.
Los procesos estocásticos se pueden tratar fijando unos ciertos momentos de
tiempo, es decir, muestreando el proceso y estudiando cómo se comporta la
variable aleatoria resultante para cada t fijado. El número de muestras que
tomamos nos permite crear un vector de variables aleatorias de dimensión n,
(X(t1), . . . , X(tn)). Esto permite definir para los procesos estocásticos una fun-
ción de distribución que caracteriza el proceso. Recordad que ya hab́ıamos es-
tudiado esta noción para las variables aleatorias. Las funciones de distribución
de un proceso estocástico de orden n (de n muestras) nos dicen cuál es la pro-
babilidad de que cada una de las muestras X(ti) sea igual o menor que un
cierto valor xi.
A partir de esto hay que diferenciar entre los procesos estocásticos de estado
continuo y de estado discreto. Para los procesos de estado continuo hemos defi-
nido las funciones de densidad de orden n. En el caso de los procesos estocásticos
de estado discreto hemos de trabajar con las funciones de probabilidad.
Aśı pues, con algunos matices, podemos tratar un proceso estocástico a tiempo
continuo, X(t), mediante vectores n-dimensionales si tomamos n muestras del
proceso, (X(t1), X(t2), . . . , X(tn)). Esto nos permite caracterizar este tipo de
procesos estocásticos a partir de los parámetros siguientes:
• Función de valor medio: m(t) = E(X(t))
• Función de autocorrelación: R(t1, t2) = E[X(t1)X(t2)]
• Función de autocovarianza: C(t1, t2) = R(t1, t2) −m(t1)m(t2)
• Potencia: Pot(t) = E(X(t)2) = R(t, t)
Finalmente, también podemos comparar diferentes procesos estocásticos entre
śı estudiando su estad́ıstica conjunta. En particular, si X(t) e Y (t) son dos
procesos estocásticos, y t1 y t2 son dos instantes de tiempo fijados, podemos
definir:
• Función de correlación cruzada: RXY (t1, t2) = E(X(t1)Y (t2))
• Función de covarianza: CXY (t1, t2) = RXY (t1, t2) −mX(t1)mY (t2)
Esto nos permite definir la noción de procesos estocásticos independientes.
Formalmente, X(t) e Y (t) son independientes si cualquier muestra de X(t) es
independiente de cualquier muestra de Y (t). En particular, las variables X(t1),
Y (t2) son independientes para todo t1, t2.
CC-BY-NC-ND • PID 00253301 25 Caracterización estad́ıstica y parámetros de los procesos...
Actividades
1. Leed con atención el ejemplo 1.1. Ahora, con la misma variable A considerad el proceso
X(t) = At. Calculad su función de densidad de primer orden y demostrad que, con t fijado,
X(t) es una variable aleatoria uniforme en el intervalo [0, t].
2. Leed con atención el ejemplo 3.1 de este módulo. Para el proceso del ejercicio anterior:
a) Calculad su valor medio. Hacedlo de dos maneras, tal como se hace en el ejemplo 3.1.
b) Calculad su función de autocorrelación, la función de autocovarianza y la potencia. Ha-
cedlo aplicando el teorema de la esperanza, tal como se hace en el ejemplo 3.1.
c) ¿Cuál es la esperanza de las variables aleatorias siguientes: X(1), X(3)−X(2), X(1)X(2),
X(3)2?
3. Demostrad que si C(t1, t2) es la función de autocovarianza de un proceso, entonces la
varianza de la variable X(t) con t fijado está determinada por C(t, t).
Para el proceso X(t) del primer ejercicio:
a) ¿Cuánto valen las varianzas de las variables X(2) y X(3)?
b) ¿Cuánto vale la covarianza de la variable bidimensional (X(2), X(3))?
c) Para la variable bidimensional (X(2), X(3)), ¿cuál es el coeficiente de correlación ρ? ¿A qué
se debe el resultado?
4. B es una variable aleatoria de esperanza 0 y varianza 1. Obtenemos tres valores indepen-
dientes de esta variable, B1, B2, B3, y consideramos el proceso:
Y (t) = B1 +B2 cos t+B3 sin t.
Calculad el valor medio m(t) y la autocorrelación R(t1, t2) de este proceso.
5. Repetid el ejemplo 3.4 para el caso en el que B es una variable uniforme en [0, 2].
6. Repetid el ejemplo 3.4 para el caso:
X(t) =

t
A
, 0 ≤ t < A,
1− t
1−A
, A ≤ t ≤ 1.
donde A es una variable uniforme en [0, 1].
Comparad la forma de las realizaciones con la forma del valor medio.
7. Considerad dos variables aleatorias A y B tales que A es uniforme en el intervalo [−1, 1],
B es uniforme en el intervalo [0, 2], y son independientes. Considerad también el proceso
estocástico:
X(t) = At+B.
a) Calculad las esperanzas siguientes: E(A),E(B), E(A2),E(B2), E(AB).
b) Calculad la función de valor medio del proceso X(t).
c) Calculad la función de autocorrelación, la función de autocovarianza y la potencia del
proceso X(t).
d) Si fijamos los instantes t = 1 y t = 2 se obtiene una variable aleatoria bidimensional
(X(1), X(2)). Utilizando las funciones calculadas en los dos apartados anteriores, calculad: la
esperanza y la varianza de estas dos variables, su covarianza, Cov(X(1), X(2)), y su coeficiente
de correlación ρ.
CC-BY-NC-ND • PID 00253301 26 Caracterización estad́ıstica y parámetros de los procesos...
8. Dada A, variable aleatoria exponencial de esperanza 1, se define el proceso:
X(t) =
 t, 0 ≤ t ≤ A
0, t > A
a) Calculad la función de valor medio, m(t), utilizando el teorema de la esperanza.
b) Calculad la función de probabilidad de primer orden P (x; t). (Es decir, fijado t, ¿qué
valores puede adquirir X(t) y cuáles son sus probabilidades?)
c) Volved a calcular la función de valor medio del proceso, ahora a partir de la función
anterior P (x; t).
Indicación: para los dos últimos apartados tened presente el ejemplo 1.3.
9. Considerad dos variables aleatorias U y V , independientes, con funciones de densidad:
fU (u) =
 12u, 0 ≤ u ≤ 2,
0, en otros casos,
fV (v) =
 72v6, −1 ≤ v ≤ 1,
0, en otros casos.
Considerad también el proceso estocástico:
X(t) = U + V sin t.
a) Calculad las esperanzas siguientes: E(U),E(V ), E(U2),E(V 2),E(UV ).
b) Calculad la función de valor medio, la función de autocorrelación y la función de autoco-
varianza del proceso X(t).
c) ¿En qué instantes es máxima la potencia del proceso X(t)?
d) Si fijamos los instantes t = π
6
y t = π
2
se obtiene una variable aleatoria bidimensional
(X(π
6
), X(π
2
)). Utilizando las funciones calculadas en los dos apartados anteriores, calcu-
lad: la esperanza y la varianza de estas dos variables, la covarianza Cov(X(π
6
), X(π
2
)) y el
coeficiente de correlación ρ.
10. Calculad la función de valor medio, m(t), de los procesos siguientes (utilizando el teorema
de la esperanza).
a) X(t) =
 0, 0 ≤ t ≤ B,
2− t, t > B,
donde B es una variable aleatoria uniforme en [0, 2].
b) Y (t) =
 A− t, 0 ≤ t ≤ A,
t−A, t > A,
donde A es una variable aleatoria exponencial de esperanza 1.
11. Considerad el proceso estocástico:
X(t) = Aet +B,
donde A y B son dos variables aleatorias independientes, exponenciales de parámetro λ = 1.
a) ¿Cuánto valen las esperanzas siguientes: E(A),E(B), E(A2),E(B2),E(AB)?
b) Calculad la función de valor medio, la función de autocorrelación y la función de autoco-
varianza del proceso X(t).
c) ¿En qué instante la potencia del proceso X(t) vale 26?
d) Si fijamos los instantes t = 0 y t = ln 2, se obtiene una variable aleatoria bidimensional
(X(0), X(ln 2)). Utilizando las funciones calculadas en los apartados anteriores, calculad: la
esperanza y la varianza de estas dos variables, la covarianza Cov(X(0), X(ln 2)) y el coeficiente
de correlación ρ.
CC-BY-NC-ND • PID 00253301 27 Caracterización estad́ıstica y parámetros de los procesos...
12. Considerad una variable aleatoria V con función de densidad: fV (v) =

1
(v+1)2
, v ≥ 0,
0, v < 0.
Calculad la función de valor medio, m(t), de los procesos siguientes (utilizando el teorema
de la esperanza).
a) Y (t) =
 t2 + t, 0 ≤ t ≤ V,
0, t > V.
b) Z(t) =
 0, 0 ≤ t ≤ V,
V + 1, t > V.
13. Considerad el proceso estocástico:
X(t) = (t−A)(t− 2A),
donde A es una variable aleatoria uniforme en el intervalo [0, 6].
a) Calculad la función de valor medio del proceso X(t). (Indicación: calculad primero las
esperanzas de A y de A2.)
b) Si fijamos el instante t=0 se obtiene una variable aleatoria X(0). ¿Cuánto vale su varian-
za?
c) Sea M el valor mı́nimo que adquiere X(t). Calculad la probabilidad de que M sea mayor
que −1.
14. Considerad el proceso estocástico:
X(t) = Ae−Bt,
donde A y B son dos variables aleatorias independientes, exponenciales de parámetro λ = 1.
a) Calculad la función de valor medio, la función de autocorrelación y la función de autoco-
varianza del proceso X(t).
b) Si fijamos los instantes t = 0 y t = 1 se obtiene una variable aleatoria bidimensional
(X(0), X(1)). Utilizando las funciones calculadas en los apartados anteriores, calculad: la
esperanza y la varianza de estas dos variables, la covarianza Cov(X(0), X(1)) y el coeficiente
de correlación ρ.
15. Considerad una variable aleatoria V uniforme en el intervalo [0, 1]. Calculad la función
de valor medio, m(t), del proceso siguiente (utilizando el teorema de la esperanza):
X(t) =
 t2 − V t, si 0 ≤ t ≤ V,
t2 − (V + 1)t+ V, si V < t ≤ 1.
16. Si X(t) es un proceso estocástico que representa cierta señal, podemos considerar la
presencia de ruido representándolo con un proceso N(t) y considerando que medimos el
proceso Z(t) = X(t)+N(t). En lo que sigue supongamos que X(t) y N(t) son independientes
y que N(t) tiene valor medio cero (mN (t) = 0).
a) Demostrad que la función de autocorrelación de Z(t) es la suma de las autocorrelaciones
de X(t) y de N(t):
RZ(t1, t2) = RX(t1, t2) +RN (t1, t2).
b) Si X(t) tiene potencia constante igual a 2, y N(t) = sin(t− B) donde B es una variable
aleatoria uniforme en el intervalo [0, π], ¿cuál es la potencia de Z(t)?
CC-BY-NC-ND • PID 00253301 28 Caracterización estad́ıstica y parámetros de los procesos...
17. Al activar un circuito aparece una corriente X(t) para t ≥ 0 que podemos representar
como un proceso estocástico:
X(t) = (1 +A cos(10πt))e−t,
donde A es una variable aleatoria uniforme en el intervalo [−3, 3].
a) Calculad la función de valor medio del proceso X(t).
b) Considerad la variable aleatoria dada por la corriente en el instante t= 1
2
: X( 1
2
). ¿Qué
vale su varianza?
c) Un componente del circuito
env́ıa una señal si la corriente X(t) se hace negativa en algún
instante. ¿Cuál es la probabilidad de que esto llegue a suceder?
18. Considerad el proceso estocástico:
X(t) = A+
B
1 + t
,
donde A y B son dos variables aleatorias independientes, gaussianas de parámetros mA = 1,
σA = 1, mB = 0, σB = 1.
a) Calculad la función de valor medio, la función de autocorrelación y la función de autoco-
varianza del proceso X(t).
b) Si fijamos los instantes t = 0 y t = 1 se obtiene una variable aleatoria bidimensional
(X(0), X(1)). Utilizando las funciones calculadas en los apartados anteriores, calculad: la
esperanza y la varianza de estas dos variables, la covarianza Cov(X(0), X(1)), y el coeficiente
de correlación ρ.
19. Considerad una variable aleatoria Z uniforme en el intervalo [1, 2]. Calculad la función
de valor medio, m(t), del proceso siguiente (utilizando el teorema de la esperanza):
X(t) =

1, 0 ≤ t ≤ Z,
Z + 1
t+ 1
, t > Z.
(Indicación: ved gráficamente cómo son las realizaciones del proceso. Observad que para
0 ≤ t < 1 siempre es X(t) = 1, con lo que m(t) = 1 para 0 ≤ t < 1. También tenemos que
para t > 2 es X(t) = Z+1
t+1
, con lo que podéis demostrar que m(t) = 5
2(t+1)
para t > 2. Haced
finalmente el análisis para 1 < t < 2, que requiere tener en cuenta los dos comportamientos
de la definición de X(t). Podéis utilizar software matemático para calcular las integrales.)
20. La señal que transmite mensajes en un canal de comunicación es un procesoX(t) con valor
medio mX(t) = 10 y potencia PotX(t) = 150. En la salida medimos Y (t) = X(t) + Q(t),
donde Q(t) es el ruido introducido por el canal, independiente de X(t), con valor medio
mQ(t) = 2 y potencia PotQ(t) = 6.
a) Calculad la potencia de Y (t).
b) Encontrad el valor de la constante a tal que el proceso Z(t) = aY (t) tenga el mismo valor
medio que X(t). ¿Qué vale, en este caso, la potencia de Z(t)?
21. La demanda que tiene un centro de suministro de enerǵıa a lo largo de un d́ıa está
determinada por el proceso estocástico:
X(t) = 100 +Bt(24− t),
donde 0 ≤ t < 24 es el tiempo en horas y B es una variable aleatoria uniforme en el intervalo
[1, 3].
a) Calculad la función de valor medio del proceso X(t).
b) Considerad la variable aleatoria dada por la demanda en el instante t=3, X(3). ¿Cuánto
vale su varianza?
CC-BY-NC-ND • PID 00253301 29 Caracterización estad́ıstica y parámetros de los procesos...
c) En el centro se debe activar un procedimiento especial si en algún momento X(t) > 500.
¿Cuál es la probabilidad de que esto llegue a pasar en un d́ıa?
22. El campo eléctrico creado en un punto por una ĺınea de alta tensión está determinado
por el proceso estocástico:
X(t) = U sin t+ V sin 2t,
donde U y V son dos variables aleatorias independientes, de esperanza 0 y desviación 1.
a) Calculad la función de valor medio, la función de autocorrelación y la función de autoco-
varianza del proceso X(t).
b) Si fijamos los instantes t = π
3
y t = π
2
se obtiene una variable aleatoria bidimensional
(X(π
3
), X(π
2
)). Utilizando las funciones calculadas en el apartado anterior, calculad: la espe-
ranza y la varianza de estas dos variables, su covarianza Cov(X(π
3
), X(π
2
)), y su coeficiente
de correlación ρ.
23. La activación de un circuito produce una corriente descrita por el proceso:
X(t) =

1
Z
, 0 ≤ t ≤ Z,
0, t > Z.
donde Z es una variable aleatoria con función de densidad fZ(z) =
z2
2
e−z para z ≥ 0 (y
fZ(z) = 0 en caso contrario). Calculad la función de valor medio, m(t), del proceso X(t).
24. La potencia de un proceso está determinada por Pot(t) = R(t, t) o, sin haber calculado la
función de autocorrelación, se puede calcular directamente por medio de Pot(t) = E(X(t)2).
Calculad la potencia de los procesos de los dos problemas anteriores aplicando el método que
os parezca más apropiado.
25. La ocupación de ancho de banda en una red en función del tiempo está determinada por
el proceso estocástico:
X(t) = Ae−t +
1
A
,
donde t ≥ 0 es el tiempo en horas y A es una variable aleatoria con función de densidad:
fA(a) =
a
2
si 0 < a < 2, y fA(a) = 0 en caso contrario.
a) Calculad la función de valor medio del proceso X(t).
b) Considerad la variable aleatoria dada por el decrecimiento de X(t) entre los instantes t=0
y t=1, V = X(0)−X(1). ¿Cuánto vale su varianza?
c) Calculad la probabilidad de que en el instante t = 2 la ocupación de ancho de banda sea
superior a 2.
26. La carga acumulada por una placa solar está determinada por el proceso estocástico:
X(t) = Rt+ S cosπt,
donde R es una variable uniforme en [1, 3], S es una variable uniforme en [−1, 1], y R y S
son independientes.
a) Calculad la función de valor medio, la función de autocorrelación y la función de autoco-
varianza del proceso X(t).
b) Si fijamos los instantes t = 0 y t = 1 se obtiene una variable aleatoria bidimensional
(X(0), X(1)). Utilizando las funciones calculadas en el apartado anterior, calculad: la espe-
ranza y la varianza de estas dos variables, su covarianza Cov(X(0), X(1)), y su coeficiente
de correlación ρ.
c) el término S cosπt es una corrección debida a factores internos de la placa. Calculad la
potencia del proceso, primero sin esta corrección y después teniéndola en cuenta.
¿Qué significado tiene la diferencia entre los dos valores obtenidos?
CC-BY-NC-ND • PID 00253301 30 Caracterización estad́ıstica y parámetros de los procesos...
27. La carga y descarga de un componente electrónico está descrita por el proceso:
X(t) =

t, 0 ≤ t ≤ B,
Be−(t−B), t > B.
donde B es una variable aleatoria exponencial de valor medio 1.
a) Calculad la función de valor medio, m(t), del proceso X(t).
b) Dibujad un par de realizaciones de X(t) y la función m(t). ¿Qué similitudes y diferencias
encontráis entre m(t) y las realizaciones?
c) Calculad el valor máximo de m(t). Comparadlo con el valor medio del máximo de las
realizaciones (calculad el valor máximo de X(t) y haced la esperanza del resultado). ¿Valen
lo mismo? ¿Por qué?
28. Un tipo de part́ıcula produce radiación de intensidad descrita por el proceso estocástico:
X(t) = J cos t+ (1− J) sin t,
donde t es el tiempo y J es una variable aleatoria de Bernoulli con parámetro p = 1
2
.
a) Calculad la función de valor medio m(t) y la función de autocorrelación R(t1, t2) del
proceso X(t).
b) En el estado coherente tenemos dos part́ıculas produciendo radiación de manera indepen-
diente. Calculad la potencia total radiada.
c) En un estado supercoherente, las part́ıculas anteriores dejan de ser independientes y tienen
todas el mismo valor de la variable J . ¿Cuál es ahora la potencia total radiada?
d) La enerǵıa radiada en un periodo es U =
∫ 2π
0 Pot(t)dt. Comparadla en los dos casos
anteriores.
e) Generalizad a N part́ıculas los tres apartados anteriores. Demostrad que:
Usupercoherente
Ucoherente
=
2
1 +N−1
.
(Indicación: observad que las variables de Bernoulli verifican J2 = J .)
29.
a) Demostrad que si un proceso tiene la formaX(t) = e−At donde A es una variable aleatoria,
se puede expresar R(t1, t2) a partir de m(t). Es decir, habiendo calculado m(t) ya podemos
determinar R(t1, t2) sin cálculos adicionales.
b) Una variable aleatoria de Simpson es la que toma valores en el intervalo [0, 2] con función
de densidad:
fA(a) =
 a, 0 ≤ a < 1,
2− a, 1 ≤ a ≤ 2.
Calculad las funciones de valor medio, de autocorrelación y de autocovarianza del proceso
X(t) = e−At.
c) ¿Qué valores puede adquirir la variable X(1)? Es X(t) un proceso de estado discreto o
continuo.
d) Utilizando los parámetros del apartado b, calculad la esperanza y la varianza de la variable
X(1).
e) La variable de Simpson se obtiene haciendo A = U1 + U2 donde U1 y U2 son variables
uniformes en [0, 1], independientes. Utilizad este hecho para deducir de manera más simple
m(t).
(Indicación: utilizad el resultado del apartado a en el b.)
CC-BY-NC-ND • PID 00253301 31 Caracterización estad́ıstica y parámetros de los procesos...
30. El nivel de carga en un acumulador de enerǵıa, para t ≥ 0, se describe con el proceso:
X(t) = A2 −B2t+ t2,
donde A y B son variables uniformes en [1, 2], independientes.
a) Calculad la función de valor medio del proceso X(t).
b) ¿Cuál es la probabilidad de que la diferencia entre la carga inicial y la carga mı́nima sea
superior a 3?
c) Calculad el coeficiente de correlación ρ entre la carga inicial, X(0), y la carga en t = 1,
X(1).
(Indicación: en el apartado c haced el cálculo expresando las variables en función de A y B.)
31. El uso de ancho de banda de cierta conexión corresponde al proceso:
X(t) =

1, 0 ≤ t ≤ V,
e−(t−V ), t > V,
donde V es una variable aleatoria con densidad fV (v) = ve
−v , v ≥ 0.
a) Calculad la función de valor medio, m(t), del proceso X(t).
b) Dibujad un par de realizaciones de X(t) y la función m(t). ¿Qué similitudes y diferencias
encontráis entre m(t) y las realizaciones?
c) Calculad, en función de t, P (X(t) = 1).
d) ¿Qué valores puede adquirir X(1)? A partir de esto y del apartado anterior, ¿qué podemos
decir sobre si el proceso es de estado continuo o discreto?
CC-BY-NC-ND • PID 00253301 32 Caracterización estad́ıstica y parámetros de los procesos...
Solucionario
1. Teńıamos que A es uniforme en el intervalo [0, 1]. Recordemos que su función de distribu-
ción vale FA(a) = a, 0 ≤ a ≤ 1.
Fijado t > 0, dado que A vaŕıa entre 0 y 1, X(t) = At vaŕıa entre 0 y t. Ahora podemos
calcular:
F (x; t) = P (X(t) ≤ x) = P (At ≤ x) = P
(
A ≤
x
t
)
= FA
(x
t
)
=
x
t
.
La función de densidad de primer orden se obtiene derivando la función anterior:
f(x; t) =
d
dx
F (x; t) =
1
t
, 0 ≤ x ≤ t.
Dado que esta densidad no depende de x, tenemos que con t fijado la densidad de X(t) es
constante. Por tanto, X(t) es una variable uniforme en el intervalo [0, t].
2. a) A partir de la densidad de primer orden:
m(t) =
∫ ∞
−∞
xf(x; t) dx =
∫ t
0
x
t
dx =
1
t
∫ t
0
x dx =
1
t
t2
2
=
t
2
.
A partir del teorema de la esperanza:
m(t) = E(At) = tE(A) = t
1
2
.
Observad que en el cálculo anterior t es una constante y, por tanto, sale multiplicando la espe-
ranza. Igualmente no ha sido necesario calcular la integral, ya que sabemos que la esperanza
de una uniforme vale el punto medio del intervalo. Entonces, E(A) = 0+1
2
= 1
2
.
b) Autocorrelación:
R(t1, t2) = E[X(t1)X(t2)] = E(At1At2) = t1t2E(A
2) = t1t2
∫ 1
0
a2 · 1da =
t1t2
3
.
Autocovarianza: C(t1, t2) = R(t1, t2)−m(t1)m(t2) = t1t23 −
t1
2
· t2
2
= t1t2
12
.
Potencia: Pot(t) = R(t, t) = t
2
3
.
c) E(X(1)) = m(1) = 1
2
, E(X(3)−X(2)) = E(X(3))−E(X(2)) = m(3)−m(2) = 3
2
−1 = 1
2
,
E(X(1)X(2)) = R(1, 2) = 2
3
, E(X(3)2) = R(3, 3) = 3.
3. Var(X(t)) = E(X(t)2)−E(X(t))2 = E(X(t)X(t))−E(X(t)) E(X(t)) = R(t, t)−m(t)m(t) =
C(t, t).
a) Utilizando C(t1, t2) =
t1t2
12
: Var(X(2)) = C(2, 2) = 1
3
, Var(X(3)) = C(3, 3) = 3
4
.
b) Cov(X(2), X(3)) = C(2, 3) =
1
2
.
c) ρ =
Cov(X(2), X(3))
σX(2) σX(3)
. Dado que σX =
√
Var(X): ρ =
1
2√
1
3
√
3
4
= 1.
Resulta que la correlación es máxima. Esto se debe al hecho de que X(2) = 2A y X(3) = 3A.
Entonces, una variable determina exactamente a la otra, de manera lineal, ya que X(3) =
3
2
X(2).
CC-BY-NC-ND • PID 00253301 33 Caracterización estad́ıstica y parámetros de los procesos...
4. Según el enunciado: E(B1) = E(B2) = E(B3) = 0. E(B21) = Var(B1) + E(B1)
2 = 1. Igual-
mente, E(B22) = E(B
2
3) = 1. Dado que son independientes, E(B1B2) = E(B1) E(B2) = 0.
Igualmente, E(B2B3) = E(B1B3) = 0.
m(t) = E[Y (t)] = E(B1 +B2 cos t+B3 sin t) = E(B1) + E(B2) cos t+ E(B3) sin t = 0.
R(t1, t2) = E[Y (t1)Y (t2)] = E[(B1 +B2 cos t1 +B3 sin t1)(B1 +B2 cos t2 +B3 sin t2)]
= E(B21) + E(B1B2) cos t2 + E(B1B3) sin t2 + E(B2B1) cos t1 + E(B
2
2) cos t1 cos t2
+ E(B2B3) cos t1 sin t2 + E(B3B1) sin t1 + E(B3B2) sin t1 cos t2 + E(B
2
3) sin t1 sin t2
= 1 + cos t1 cos t2 + sin t1 sin t2 = 1 + cos(t2 − t1).
Por tanto, m(t) = 0 y R(t1, t2) = 1 + cos(t2 − t1).
5.
X(t) =
 t, 0 ≤ t < B
B, t ≥ B
donde B es una variable uniforme en [0, 2].
Las realizaciones tienen la misma forma que en el ejemplo (figura 4). Lo que vaŕıa es la
frecuencia de aparición de los diferentes valores de B. De hecho, antes se pod́ıa dar cualquier
B positivo, mientras que ahora está limitado entre 0 y 2.
Función de valor medio del proceso X(t)
Debemos calcular m(t) = E(X(t)). Dado que X(t) depende de una variable B, utilizaremos
el teorema de la esperanza. La función de densidad de B es fB(b) =
1
2
, 0 ≤ b ≤ 2. En la
definición de X(t) vemos que X(t) = B si 0 ≤ B ≤ t, mientras que X(t) = t si B ≥ t. Aśı
separaremos la integración sobre b según estos dos casos:
m(t) =
∫ ∞
−∞
X(t)fB(b) db =
∫ t
0
b
1
2
db+
∫ 2
t
t
1
2
db
=
b2
4
∣∣∣∣t
0
+
bt
2
∣∣∣∣2
t
=
t2
4
+
(2− t)t
2
= t−
t2
4
.
Pero el segundo caso no se puede dar cuando t ≥ 2. Para estos valores de t:
m(t) =
∫ 2
0
b
1
2
db =
b2
4
∣∣∣∣2
0
= 1.
Aśı,
m(t) =

t−
t2
4
, 0 ≤ t < 2
1, t ≥ 2
CC-BY-NC-ND • PID 00253301 34 Caracterización estad́ıstica y parámetros de los procesos...
La función m(t) se muestra en la figura 6.
Figura 6. Valor medio de X(t)
4,0
t
1,5
1,0
0,5
0,0
m
(t
)
0,0 0,5 1,0 1,5 2,0 3,0 3,52,5
6. Las realizaciones tienen forma de triángulo, tal como se ve en la figura 7.
Figura 7. Realización de X(t). (A = 0,3)
0,8
t
1,5
1,0
0,5
0,0
m
(t
)
0,0 0,1 0,2 0,3 0,4 0,6 0,7 1,00,90,5
Para calcular la función de valor medio del proceso X(t) utilizaremos el teorema de la espe-
ranza. La función de densidad de A es fA(a) = 1,0 ≤ a ≤ 1. En la definición de X(t) vemos
CC-BY-NC-ND • PID 00253301 35 Caracterización estad́ıstica y parámetros de los procesos...
que X(t) = 1−t
1−A si 0 ≤ A ≤ t, mientras que X(t) =
t
A
si t < A ≤ 1. Aśı separaremos la
integración sobre a según estos dos casos:
m(t) =
∫ ∞
−∞
X(t)fA(a) da =
∫ t
0
1− t
1− a
da+
∫ 1
t
t
a
da
= −(1− t) ln(1− a)|t0 + t ln a|1t = −(1− t) ln(1− t)− t ln t.
La función m(t) se muestra en la figura 8. Observad que mientras que las realizaciones tienen
un punto donde no son derivables (un “pincho”), la función de valor medio es “suave”. Muchas
veces las irregularidades de las realizaciones se suavizan al hacer la media.
Figura 8. Valor medio de X(t)
0,8
t
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
m
(t
)
0,0 0,1 0,2 0,3 0,4 0,6 0,7 1,00,90,5
7. a) E(A) =
1 + (−1)
2
= 0. E(B) =
0 + 2
2
= 1.
Densidades: fA(a) =
1
2
,−1 ≤ a ≤ 1. fB(b) =
1
2
, 0 ≤ b ≤ 2.
E(A2) =
∫ 1
−1
a2
1
2
da =
[
a3
6
]1
−1
=
1
3
. E(B2) =
∫ 2
0
b2
1
2
db =
[
b3
6
]1
0
=
4
3
.
Como son independientes, E(AB) = E(A) E(B) = 0 · 1 = 0.
b) m(t) = E(X(t)) = E(At+B) = E(A)t+ E(B) = 0 · t+ 1 = 1.
c) R(t1, t2) = E[X(t1)X(t2)] = E[(At1 +B)(At2 +B)] = E(A
2t1t2 +AB(t1 + t2) +B
2)
= E(A2)t1t2 + E(AB)(t1 + t2) + E(B
2) =
1
3
t1t2 + 0 · (t1 + t2) +
4
3
=
t1t2 + 4
3
.
C(t1, t2) = R(t1, t2)−m(t1)m(t2) =
t1t2 + 4
3
− 1 · 1 =
t1t2 + 1
3
.
Pot(t) = E(X(t)2) = R(t, t) =
t2 + 4
3
.
d) Dado que E(X(t)) = m(t), Var(X(t)) = E(X(t)2)− E(X(t))2 = R(t, t)−m(t)2 = C(t, t)
y Cov(X(t1),