Representación numérica del Juego del Caos para secuencias genómicas

IPN

Adrián Vega
en 25/10/2022
Material
¡Estudia con miles de materiales!
Vista previa del material en texto
Resumen –– Se propone una modificación a la Representación 
Entera del Juego del Caos, publicada recientemente por Yin, 
nosotros no modificamos la construcción gráfica de Jeffrey, 
mostrando como codificar las secuencias genómicas, con tres 
números enteros: la longitud N de la secuencia, y las 
coordenadas enteras del punto asociado al último nucleótido de 
la secuencia (INX,INY), se demuestra que expresando estas 
últimas en binario, se obtienen las coordenadas de todos los 
puntos asociados con todos los nucleótidos de la secuencia 
genómica, y como a partir de esta secuencia de puntos se 
encuentra la secuencia genómica. Debido a que N es muy 
grande, la secuencia se separa en p partes iguales de longitud 
M, y una de longitud q, donde N=pM+q; codificando toda la 
secuencia con 3+2(p+1) enteros, que corresponden a los valores 
de M,p,q y 2(p+1) enteros, siendo estos últimos las coordenadas 
de los p+1 puntos finales de las sub-secuencias consideradas. 
Finalmente se describe el proceso de decodificación para 
obtener la secuencia genómica. 
 
Palabras Clave Juego del Caos, secuencia genómica, 
codificación, decodificación. 
 
 
Abstract ––We propose a variation of the Integer Chaos Game 
Representation recently suggested by Yin, we don´t change the 
Jeffrey´s graphical construction, and show how encoding 
genomic sequences with 3 integers: N the sequence length, and 
the integer coordinates (INX,INY) of the point assigned to the 
last nucleotide of the sequence, we show that writing these 
coordinates in a binary base can be obtained the coordinates of 
all the points associated to all the nucleotides which conform 
the genomic sequence, from there following a simple process 
we obtain the complete genomic sequence. However as N is a 
very large number, we segmented the extended genomic 
sequence (enlarged with the zero nucleotide) in p+1 blocks, p of 
them conformed by M nucleotides and one block for q<M 
nucleotides, thus N+1=pM+q; codifying each block we find that 
the complete genomic sequence can be codified by 3+2(p+1) 
numbers: M,p,q and the p+1 the coordinates of final nucleotide 
of each blocks, finally we describe the decoding processes for 
obtain the complete genomic sequence. 
 
Keywords –– Chaos Game Representation, genomic sequence, 
coding and decoding. 
 
I. INTRODUCCIÓN 
 Una secuencia de DNA consiste de cuatro tipos de 
nucleótidos: Adenina (A), Guanina (G), Timina (T) y 
Citosina (C). El análisis matemático de una secuencia 
genómica (SG), requiere de la conversión de una secuencia 
simbólica a una secuencia numérica, de forma que los 
patrones y caracteres intrínsecos de la secuencia puedan ser 
caracterizados para llevar a cabo un procesamiento digital 
de señales, por lo que una representación efectiva debe 
capturar todas las propiedades biológicas significativas del 
genoma sin introducir ningún efecto espurio. 
En 1990, Jeffrey[1,2] propuso una representación numérica 
y gráfica de una secuencia de DNA inspirado en la 
representación del Juego del Caos de Barnsley (JCB) [3], 
que permite generar fractales utilizando un sistema de 
funciones iteradas. 
La representación gráfica de una secuencia genómica 
usando el Juego del Caos de Jeffrey (JCJ), es generada en un 
cuadrado unitario, donde se colocan en sus cuatro vértices 
los símbolos de los nucleótidos A,C,G y T, la representación 
gráfica del JCJ se construye al asociar a cada nucleótido de 
la secuencia del ADN, un punto dentro del cuadrado usando 
las siguientes reglas: al primer nucleótido de la secuencia 
genómica se le asocial el punto medio entre el centro del 
cuadrado y el vértice correspondiente al primer nucleótido 
de la secuencia, los puntos subsecuentes son generados por 
los puntos medios entre el punto anterior y el vértice que 
corresponde al nucleótido que esta siendo graficado. 
 
Las características importantes del JCJ son que las 
coordenadas de cualquier punto de la secuencia, contiene la 
información histórica de toda la secuencia precedente y 
muestra visualmente todas las frecuencias subsecuentes de 
la secuencia de DNA. El JCJ preserva todas las propiedades 
estadísticas de una secuencia dada de DNA, por lo que 
permite una investigación tanto local como global de los 
patrones en las secuencias de DNA revelando estructuras 
fractales ocultas dentro de las secuencias genómicas. 
 
El JCJ fue desarrollada para visualizar las frecuencias de 
distintos k-meros, dando como resultado una imagen 
bidimensional única para una secuencia genómica dada. 
Como el JCJ tiene la propiedad de diferenciar entre 
secuencias genómicas pertenecientes a diferentes especies, 
ha sido propuesta como la huella digital del genoma[4,6]. 
Sin embargo, la representación numérica de esta huella es 
una lista de valores de la misma longitud que las secuencias 
de DNA, que no se puede utilizar para almacenar, 
Codificación y Decodificación de Secuencias Genómicas. 
 
J.L. del Río-Correa1, Y.A. Álvarez -Ballesteros2, G. Durán-Meza3 
1,2,3 Departamento de Física, UAM-Iztapalapa, México D.F., México. 
Teléfono (55) 5804-4624 Fax (55) 5804-4610 E-mail: jlrc@xanum.uam.mx 
comprimir o encríptar y comparar las secuencias de DNA. 
 
Recientemente Changchuan Yin[5] propuso una 
Representación Entera del Juego del Caos (REJC), que 
permite una codificación de las secuencias genómicas con 
tres números enteros. En la REJC se modifica el algoritmo 
de Jeffrey de manera que las coordenadas de cada punto de 
la secuencia son dadas por números enteros positivos y 
negativos, de forma que la nube de puntos asociados con la 
secuencia genómica ocupa todo el plano, por lo que no esta 
acotada, lo anterior hace que se pierda la representación 
gráfica de las secuencias genómicas. que ha mostrado ser 
una herramienta fundamental para el análisis de las 
secuencias de DNA. 
En este trabajo presentamos una Representación Entera 
alternativa que no modifica sustancialmente el JCJ, que 
permite pasar fácilmente a la representación habitual de 
Jeffrey. El proceso de codificación consiste en segmentar la 
SG en p+1 partes, p de ellos con el mismo número M de 
nucleótidos, y el último con q=NmodM nucleótidos, la 
codificación consiste en dar las coordenadas enteras de los 
puntos finales de cada segmento, N la longitud total de la 
secuencia y el valor seleccionado de M, por lo que la 
secuencia se codifica con 3+2(p+1) enteros. 
 
II. METODOLOGÍA 
EL JUEGO DEL CAOS DE BARNSLEY. 
Una forma simple de generar un conjunto fractal propuesta 
por Barnsley, es considerar el siguiente juego de azar: 
Dibuje un triángulo equilátero, identifique el primer vértice 
por los números 1,2; el segundo con los números 3,4 y el 
tercero con 5,6. Y proceda con los siguientes pasos: 
1.- Seleccione un punto inicial arbitrario P0 dentro del 
triángulo. 
2.-Lance un dado (no cargado), usando el resultado del 
lanzamiento seleccione PV, uno de los tres vértices del 
triángulo. 
3.-Dibuje P1 el punto medio entre P0 y PV . 
4.-Para dibujar el siguiente punto, repita el paso 2, 
considerando a P1 como el punto inicial. 
5.- Repitiendo sistemáticamente los pasos anteriores dibuje 
un número grande de puntos. 
En principio uno esperaría que el resultado del juego del 
caos fuera una nube de puntos completamente aleatoria 
dentro del triángulo, sin embargo sorprendentemente la 
figura generada es un fractal conocido como el triángulo de 
Sierpinski, siendo la razón de esto, que la regla 3 
corresponde a la aplicación de tres reglas de iteración de la 
forma: 
 (1) 
donde es el vector de posición del n-ésimo punto, y
del vértice k; la ecuación (1) corresponde a tres 
transformacionescontractivas con puntos fijos en los 
vértices del triángulo, estos tres puntos fijos tienen la misma 
intensidad de atracción, ya que su selección es igualmente 
probable, la configuración de “equilibrio resultante”, 
técnicamente llamada la distribución estacionaria del 
proceso estocástico generado por el Sistema de Funciones 
Iteradas, es el triángulo de Sierpinski. 
Dos aspectos relevantes del Juego del Caos de Barnsley son: 
a) Las transformaciones aplicadas son contractivas, 
b) Se selecciona al azar cada transformación. 
Cuando se implementa el juego del caos utilizando cuatro 
transformaciones contractivas cuyos vértices sean los de un 
cuadrado el resultado es un conjunto de puntos que llena 
homogéneamente el cuadrado, por lo que la distribución 
estacionaria es homogénea. 
Por otra parte, Barnsley encontró que utilizando dados 
cargados, se obtenían diferentes patrones en el cuadrado, lo 
que se logra matemáticamente al considerar un sistema de 
funciones iteradas con diferente probabilidad asociada a 
cada función, de manera que se obtienen fractales que 
reflejan el proceso estocástico utilizado, y el juego del caos 
abre la posibilidad de encontrar patrones que correspondan a 
distintos procesos estocásticos, usando distribuciones de 
variables independientes ó bien utilizando procesos de 
Markov, para los detalles de lo anterior véanse los capítulos 
X y XI del la referencia [2]. 
 Representación de Jeffrey del Juego de Caos. 
 En el Juego del Caos de Jeffrey, desaparece la componente 
estocástica del juego, ya que en lugar de seleccionar un 
proceso estocástico para determinar el vértice a escoger, se 
utiliza una serie determinista que se obtiene de una 
secuencia genómica, que es una serie muy grande de 
símbolos asociados a una secuencia de DNA, obteniéndose 
una representación gráfica ó retrato de la Secuencia 
Genómica. En el sentido probabilístico, esto puede 
entenderse como que cada secuencia genómica es la 
realización de un proceso estocástico diferente. 
Una secuencia de DNA es una lista de cientos de miles o de 
millones de caracteres del siguiente tipo: 
 
 
R
Vk
REPRESENTACIÓN GRÁFICA DEL JUEGO DEL 
CAOS DE JEFFREY 
. 
Se construye un cuadrado unitario Q asociando a cada uno 
de sus vértices con una de las cuatro bases que constituyen 
el alfabeto de la secuencia genómica, así denotando a las 
bases por las letras A,C,G y T, los vértices de Q son: 
 
A 0,0( );C 0,1( );G 1,1( );T 1,0( ); (2) 
Para obtener la representación gráfica de una secuencia 
genética (SG), se sigue el siguiente proceso iterativo: 
a) Se selecciona un punto semilla X0 dentro del cuadrado, 
que en general puede ser arbitrario pero que por simplicidad 
geométrica Jeffrey selecciona X0 como el punto medio de Q, 
b) Al primer término de la SG se le asocia el punto X1, que 
es el punto medio de la línea que une X0 con el vértice del 
cuadrado cuya esquina coincide con el término de la 
secuencia genómica. 
c) Al segundo término de la SG se le asocia el punto X2, que 
es el punto medio de la línea que une el punto X1 con el 
vértice de Q cuya esquina coincide con el término de la 
secuencia. 
d) Repitiendo este proceso para toda la secuencia de DNA 
se generan tantos puntos como tenga la secuencia dada de 
DNA. 
 Para ejemplificar el Juego del Caos de Jeffrey, 
tomaremos la secuencia genómica GATCCA, y 
mostraremos cómo graficar estos seis puntos de la 
secuencia. 
 Como el primer símbolo corresponde a la Guanina, 
dibujamos la línea que va del centro del cuadrado al vértice 
marcado con la letra G, y colocamos un punto rojo en el 
punto medio del segmento P0G, que denotamos por P1, para 
encontrar el segundo punto, vemos que el segundo símbolo 
de la secuencia es A, por lo que trazamos el segmento P1A y 
tomando su punto medio se encuentra el punto P2. 
 
 
Figura 1. Gráfica correspondiente a la secuencia GATCCA 
 
El siguiente símbolo en la secuencia es T, por lo que 
trazamos el segmento P2T y tomando su punto medio se 
determina P3. Para encontrar el siguiente punto , usamos que 
el cuarto símbolo es C, trazamos el segmento P3C y 
encontramos su punto medio que es P4. Repitiendo el 
proceso para C y A, encontramos P5 y P6. (Ver Fig.1). 
 
 Figura 2. Gráfica del cromosoma 21 del Homo Sapiens 
 
Como se puede ver, el proceso es relativamente simple 
cuando se lleva a cabo con una secuencia pequeña, sin 
embargo una secuencia genética consta cientos de miles o 
millones de puntos, por lo que la gráfica se tiene que hacer 
usando una computadora y además dado que es finito el 
tamaño de un pixel gráfico, no existe una relación biunívoca 
entre los puntos de la secuencia y los pixeles gráficos que 
conforman la figura que se obtenga, sin embargo esta pálida 
foto de la secuencia genómica es diferente para cada 
secuencia, mostrando claramente una estructura multifractal 
como puede verse en la representación gráfica del 
cromosoma 21 del Homo Sapiens, mostrada en la Fig.2. 
III. RESULTADOS 
ESTUDIO ANÁLITICO DEL JUEGO DEL CAOS DE 
JEFFREY 
Para calcular lar coordenadas de los puntos generados por la 
secuencia genómica al usar el JCJ, es conveniente utilizar la 
representación binaria. Como todos los puntos caen dentro 
del cuadrado unitario, sus coordenadas (X,Y) son de la 
forma: 
X =
b
j
2 jJ=1
N
å = 0.b1b2...bN ;Y =
B
j
2 jJ=1
N
å = 0.B1B2...BN ; (3) 
Las coordenadas del centro del cuadrado y de los vértices 
asociados a cada nucleótido son las siguientes: 
 
 
P
0
A C G T
X 0.1 0 0 1 1
Y 0.1 0 1 1 0
 (4) 
 
Figura 3. Cuadrado unitario, y sub-cuadrados de primer y segundo orden. 
 
Las coordenadas del primer punto dependen de cuál sea 
el primer nucleótido V1 de la SG, siendo dadas por la 
relación: 
 
X̂
V
1
= 1
2
X
0
1
+V
1X( ) = .01+ V1 X2 = .V1X1;
Ŷ
V
1
= 1
2
Y
0
1
+V
1Y( ) = .01+ V1Y2 = .V1Y1;
 (5) 
Las 4 coordenadas posibles para el primer punto, por (4) y 
(5), corresponden a los puntos medios de los sub-cuadrados 
de primer orden, QA,QC,QG y QT : 
 
X̂
A
= X̂
C
= 1
2
X
0
= .01; X̂
G
= X̂
T
= 1
2
X
0
+ 1
2
= .11;
Ŷ
A
= Ŷ
T
= 1
2
Y
0
= .01; Ŷ
C
= Ŷ
G
= 1
2
Y
0
+ 1
2
= .11;
 (6) 
Las 16 coordenadas posibles del segundo punto están dadas 
por las relaciones: 
 (7) 
que son las coordenadas de los puntos medios de los sub-
cuadrados de segundo orden: 
 (8) 
las 4R coordenadas posibles para el R-ésimo nucleótido de la 
SG son: 
 
 
X̂
V
1
V
2
...V
R
= 1
2
X̂
V
1
V
2
...V
R-1
+ X
V
R
( ) = 0.VRXVR-1X ...V2 XV1X1
Ŷ
V
1
V
2
...V
R
= 1
2
Ŷ
V
1
V
2
...V
R-1
+ Y
V
R
( ) = 0.VRYVR-1Y...V2YV1Y1
 (9) 
que son las coordenadas de los centros de los sub-cuadrados 
de R-ésimo orden. Este resultado permite construir un 
algoritmo simple para encontrar las coordenadas que 
corresponden a cualquier miembro de la secuencia 
genómica; iniciando la secuencia con el punto medio P0, 
colocando debajo de cada símbolo del nucleótido las 
coordenadas correspondientes a su vértice; agregando el 
punto decimal después del símbolo del que se desea conocer 
su coordenada, y finalmente leyendo de derecha a izquierda 
se obtienen las coordenadas del punto deseado, como se 
muestra en (10). 
 
P
0
V
1
V
2
... V
R
1 V
1X
V
2 X
... V
RX
1 V
1Y
V
2Y
... V
RY
;P
VR
=
0.V
RX
... V
2 X
V
1X
1
0.V
RX
V
2 X
V
1X
1
æ
è
ç
ç
ö
ø
÷
÷
 (10) 
re-escribiendo (10) en la forma: 
 
X
R
=
V
jX
2R+1- jj=0
R
å =
1
2R+1
I
RX
; I
RX
= V
jX
2 j
j=0
R
å ;V0 X = 1;
Y
R
=
V
jY
2R+1- jj=0
R
å =
1
2R+1
I
RY
; I
RY
= V
jY
2 j ; 
j=0
R
å V0Y = 1; (11) 
 expresamos las coordenadas de PR en términos de la terna 
de enteros (R,IRX,IRY) 
La ecuación (10) implica que si dos secuencias genómicas 
compuestas por R nucleótidos difierenen cualquiera de 
ellos, las coordenadas de PR son diferentes, como esto es 
válido para toda R, dada una SG existe una sola Secuencia 
de Puntos (SP) asociada con ella, caracterizada por una terna 
de números enteros. 
Observamos de (10) que conociendo las coordenadas de PR, 
se encuentran todas las coordenadas de los puntos 
anteriores, ya que moviendo el punto decimal K lugares a la 
derecha y despreciando la parte entera se encuentran las 
coordenadas del punto P(R-K), de manera que: 
 
X
R-K
Y
R-K
æ
è
ç
ö
ø
÷ =
2K X
R
mod1
2K Y
R
mod1
æ
è
ç
ö
ø
÷ ; (12) 
en tanto que la terna que caracteriza a la SP de R-K 
elementos: (R-K,I(R-K)X, I(R-K)Y) es: 
 
I
R-K( )X
= Int
1
2K
I
RX
æ
èç
ö
ø÷
; I
R-K( )Y
= Int
1
2K
I
RY
æ
èç
ö
ø÷
; (13) 
Así, podemos obtener a partir de PR todos los puntos que lo 
preceden. De manera que dado PR conocemos toda la SP 
asociada a la SG. 
De (11), vemos que conociendo la terna de enteros, el 
primero nos da la longitud de la secuencia genómica, los dos 
restantes al expresarlos en binario permiten encontrar la 
secuencia genómica correspondiente; ya que expresando los 
enteros (IRX,IRY) en base dos con R+1 cifras significativas, 
se obtiene el conjunto {VjX.VjY), y utilizando (4) podemos 
encontrar la secuencia genómica. Por lo que hay una 
relación biunívoca entre las SP y las SG. 
Para ilustrar lo anterior encontraremos la terna que 
caracteriza la secuencia genómica TACGGTACT. 
Esta SG tiene R=9 elementos, para codificarla, empezamos 
por agregar el punto V0, con coordenadas (1,1), y a 
continuación los nucleótidos de la SG dada; colocamos 
debajo de cada nucleótido las coordenadas de su vértice en 
X̂
V
1
V
2
=
1
2
V̂
1X
+ V
2X( ) =
1
2
X̂
V
1
+ X
V
2
( ) = .0V1X1+
V
2X
2
= 0.V
2X
V
1X
1
Ŷ
V
1
V
2
=
1
2
V̂
1Y
+ V
2Y( ) =
1
2
Ŷ
V
1
+ Y
V
2
( ) = .0V1Y1+
V
2Y
2
= .V
2Y
V
1Y
1
 
Q
AA
,Q
AC
,Q
AG
,Q
AT
; Q
CA
,Q
CC
,Q
CG
,Q
CT
;
Q
GA
,Q
GC
,Q
GG
,Q
GT
; Q
TA
,Q
TC
,Q
TG
,Q
TT
;
el JCJ dadas por (4), encontrando las coordenadas en binario 
del punto asociado al último nucleótido de la secuencia. 
Usando (11) se encuentran los enteros correspondientes a la 
abscisa y ordenada del último término de la SG, que se 
expresan en una base 10. 
Haciendo lo anterior tenemos: 
 
SG V
0
TAC GGTA CT
X 1100 1110 01
Y 1001 1100 10
æ
è
ç
ç
ç
ö
ø
÷
÷
÷
 
 
I
9 X
= 20 + 21 + 24 + 25 + 26 + 29 = 627
I
9Y
= 20 + 23 + 24 + 25 + 28 = 313
 (14) 
Así, la secuencia TACGGTACT es codificada por la terna 
(9,627,313) 
Procederemos ahora a mostrar el proceso de decodificación, 
dada la terna (9,627,313), queremos encontrar la SG. 
El primer número indica que la SG esta compuesta por 9 
nucleótidos, para encontrarlos se construye una matriz de 3 
renglones y (R+1) columnas; en los dos primeros renglones 
expresamos en binario con 10 cifras significativas los 
enteros 627 y 319, en el tercer renglón usando (4) se 
identifican los R símbolos de los nucleótidos, la última 
columna contiene las coordenadas asociadas a V0, 
finalmente se encuentra la SG leyendo el tercer renglón de 
derecha a izquierda, 
 
 
 
I
9 X
627 = 1001 1100 11
I
9Y
313 = 0100 1110 01
SG ¬ TCAT GGCA TV
0
¬
 (15) 
Usando (11), podemos encontrar las coordenadas del último 
punto de la secuencia, 
 
 
X
9
=
627
210
=
1
210
x 1001110011( ) = 0.1001110011
Y
9
=
313
210
=
1
210
x 1001110001( ) = 0.1001110001
 (16) 
usando este resultado junto con (13) se encuentra las 
coordenadas de cualquier punto anterior al noveno, por 
ejemplo si se desea encontrar las coordenadas del quinto 
punto, tenemos que 9-4=5, de forma que K=4, por lo que: 
 
 
X
5
= 24 X
9
mod1= 1001.110011( )mod1= 0.110011
Y
5
= 24Y
9
mod1= 1001.110001( )mod1= 0.110001
 (17) 
Seleccionando R igual a N, donde N es el número de 
nucleótidos que conforman la SG, en principio podemos 
obtener la terna (N,INX,INY) que contienen la información 
completa de toda la secuencia genómica. 
IV. DISCUSIÓN 
 
Sin embargo, debido a que N es muy grande su 
implementación presenta dos problemas, el primero de ellos 
es el análisis gráfico, debido a que las coordenadas de los 
puntos son cada vez números más pequeños en cuanto 
aumenta el número de nucleótidos de la secuencia, por lo 
que no es factible graficarlo exactamente, ni tampoco 
calcularlos numéricamente, ya que después de cierto rango 
de valores, que dependiendo del número más pequeño que 
pueda manejar la computadora, solamente se están 
agregando ceros, de manera que aunque en principio 
podemos conocer las coordenadas del último nucleótido de 
la secuencia, no podemos calcularlo en la práctica, el 
segundo problema consiste en compactar la información de 
la secuencia genómica, ya que por cada nucleótido se 
requieren dos bits, de forma que el almacenamiento de las 
coordenadas del último nucleótido requiere de 2N+1 bits de 
memoria, por lo que tenemos que diseñar algún mecanismo 
que nos permita tener toda la información contenida dentro 
de la secuencia genómica. 
Para ello, procedemos a dividir la SG, con el “nucleótido 
cero” V0 incluido. Consideremos p grupos de M nucleótidos 
y uno adicional de q<M nucleótidos: 
 
GRUPO a = 0; a = 1;... 
 V
0
V
1
...V
M-1( ) VMVM+1...V2 M-1( )...
 a = p-1; a = p;
V
p-1( )M
V
p-1( )M+1
...V
pM-1( ) VpMVpM+1...VpM+q( )
 (18) 
de manera que pM+q=N+1. Cada grupo genómico se 
caracteriza por una terna, por lo que toda la SG se 
caracteriza con los 3 enteros y p+1 pares de coordenadas 
enteras: 
 (19) 
 Las coordenadas de los pares se encuentran utilizando que 
la siguiente suma de N+1 elementos, con Vj(0,1), se puede 
expresar como: 
 
 
 (20) 
Como los elementos Vj solo pueden ser cero ó uno, el rango 
de valores para los enteros es el siguiente 
 
 (21) 
Para ejemplificar el proceso antes descrito, consideremos la 
codificación de una secuencia con 30 nucleótidos. 
Seleccionando M=8, formamos p=3 grupos de 8 y 1 de q=7 
nucleótidos: 
 
SG V
0
ACT GGTA TTGT ACTC
X 1001 1110 1111 0010
Y 1010 1100 0010 0101
SG CTAA CCCT AGGT TGC
X 0100 0001 0111 110
Y 1000 1110 0110 011
 (22) 
Usando (20) obtenemos: 
 
N
0 X
= 20 + 23 + 24 + 25 + 26 = 121 N
1X
= 20 + 21 + 22 + 23 + 26 = 79
N
0Y
= 20 + 22 + 24 + 25 = 53 N
1Y
= 22 + 25 + 27 = 164
N
2 X
= 21 + 27 = 130 N
3X
= 21 + 22 + 23 + 24 + 25 = 62
N
2Y
= 20 + 24 + 25 + 26 = 113 N
3Y
= 21 + 22 + 25 + 26 = 102
 (23) 
 por lo que la secuencia genómica: 
ACTGGTATTGTACTCCTAACCCTAGGTTGC 
esta caracterizada pot los enteros (8,3,7) y los pares 
(121,53),(79,164), (130,113), (62,102). 
Supongamos ahora que se quiere obtener la secuencia 
genómica codificada por: 
[8,3,7; (121,53),(79,164), (130,113), (62,102)] 
La SG esta constituida por 31 nucleótidos incluyendo V0 ; 
1) Separada en 3 grupos de 8 nucleótidos y uno más 
de 7 nucleótidos, 
2) el proceso de decodificación se hace de manera 
similar al mostrado en (23). 
3) Al expresar en binario las coordenadas de los 
primeros 3 grupos, se requieren 8 cifras 
significativas; y en el último grupo se consideran 7 
cifras significativas. 
4) en el primer par de coordenadas esta incluido V0; 
 
Decodificación de los grupos 
 
121 = 0111100 1 79 = 01001111
53 = 0011010 1 164 = 10100100
ATGGTCAV
0
CTCATGTT
130 = 10000010 62 = 0111110
113 = 01110001 102 = 1100110
TCCCAATC CGTTGGA
 (24) 
La SG se encuentra leyendo cada grupo de derecha a 
izquierda y tomando la unión ordenada de ellos: 
 
ATGGTCAV
0
CTCATGTT TCCCAATC CGTTGGA
SG : V
0
ACTGGTA TTGTACTC CTAACCCT AGGTTGC
 (25) 
V. CONCLUSIONES 
El proceso de codificación que se propone para una 
secuencia genómica de R nucleótidos, consiste en agregar al 
inicio de la secuencia el “nucleótido cero” de coordenadas(1,1), sustituir cada nucleótido por las coordenadas 
habituales del Juego del Caos de Jeffrey dadas por (27), con 
lo que se obtienen dos números binarios con N+1 cifras 
significativas, cuando se coloca el punto decimal al 
principio de la secuencia se obtienen las coordenadas del 
último nucleótido de la secuencia en la Representación 
Gráfica del Juego de Caos de Jeffrey, pero cuando se coloca 
el punto decimal después del último dígito, se obtiene un par 
de enteros binarios, similares a los propuestos por Yin, 
expresando estos números en una base adecuada, (p.e. base 
10), se encuentran dos enteros impares, (NX,NY) y toda la 
secuencia queda codificada por su longitud R y un par de 
enteros impares positivos. 
Por otra parte hemos propuesto segmentar la secuencia 
genómica extendida, en p+1 segmentos, p de ellos de 
longitud M, uno de longitud q<M, y codificar cada uno de 
los segmentos, siguiendo un proceso similar al antes 
descrito, por lo que la secuencia completa se codifica con 
los enteros: M, p, q y 
 
N
a X
,N
aY( );a = 0, p( ),v.gr.: 
 (26)
 
 
para la decodificación se toma en cuenta que los tres 
primeros enteros M, p, q, nos indican: 
 1.- El número de nucleótidos que conforman la secuencia 
genómica extendida (incorporando V0) esta dado por 
N+1=Mp+q; 
2.- La SG esta segmentada en p grupos de M y uno de q 
nucleótidos. 
3.-Las p+1 coordenadas enteras, dan la codificación de cada 
uno de los grupos. 
La decodificación se hace expresando las coordenadas de 
cada grupo en binario, con las siguientes características: 
1.- Con M cifras significativas para los primeros p pares. 
2.-Con q cifras para el último par; 
3.-Se identifican los nucleótidos de cada grupo utilizando el 
siguiente código: 
 
 
A C G T
X 0 0 1 1
Y 0 1 1 0
 (27) 
 4.- Para el primer par se debe tener en cuenta que el primer 
término NO corresponde con el nucleótido G, sino con el 
“nucleótido Cero” V0, 
5.-Para cada grupo se lee la secuencia de nucleótidos de 
derecha a izquierda. 
6.-La SG se encuentra uniendo ordenadamente las 
secuencias de todos los grupos, 
Cuando se tiene una sola secuencia genómica de N 
elementos, solamente se requieren tres enteros (N,INX,INY), 
siendo su proceso de decodificación idéntico al anterior. 
 
REFERENCIAS 
[1] Jeffrey H. J., Chaos game representation of gene structure. Nucleic 
Acids Res. 18:2163–2170, 1990. 
[2] Jeffrey,H.J. (1992), Chaos Game visualization of sequences, Comput. 
& Graphics, 16, 25-33. 
[3] M.F. Barnsley, Fractals everywhere, Second Edition, AP Professional 
[4] Deschavanne P. J., Giron A., Vilain J., Fagot G., Fertil B: Genomic 
signature: characterization and classification of species assessed by 
chaos game representation of sequences. Mol. Biol. Evol. 16:1391-
1399, 1999. 
[5] Changchuan Yin. Encoding and Decoding DNA Sequences by 
Integer Chaos Game Representation. Journal of Computational 
Biology Volume 26, Number 0, 2019.  
[6] Almeida, J.S, Analysis of genomic sequences by chaos game 
representation. Bioinformatics 17: 429-437, et al. 2001.
Representación numérica del Juego del Caos para secuencias genómicas

IPN

Herramientas de estudio

Más contenidos de este tema