Vista previa del material en texto
Resumen –– Se propone una modificación a la Representación Entera del Juego del Caos, publicada recientemente por Yin, nosotros no modificamos la construcción gráfica de Jeffrey, mostrando como codificar las secuencias genómicas, con tres números enteros: la longitud N de la secuencia, y las coordenadas enteras del punto asociado al último nucleótido de la secuencia (INX,INY), se demuestra que expresando estas últimas en binario, se obtienen las coordenadas de todos los puntos asociados con todos los nucleótidos de la secuencia genómica, y como a partir de esta secuencia de puntos se encuentra la secuencia genómica. Debido a que N es muy grande, la secuencia se separa en p partes iguales de longitud M, y una de longitud q, donde N=pM+q; codificando toda la secuencia con 3+2(p+1) enteros, que corresponden a los valores de M,p,q y 2(p+1) enteros, siendo estos últimos las coordenadas de los p+1 puntos finales de las sub-secuencias consideradas. Finalmente se describe el proceso de decodificación para obtener la secuencia genómica. Palabras Clave Juego del Caos, secuencia genómica, codificación, decodificación. Abstract ––We propose a variation of the Integer Chaos Game Representation recently suggested by Yin, we don´t change the Jeffrey´s graphical construction, and show how encoding genomic sequences with 3 integers: N the sequence length, and the integer coordinates (INX,INY) of the point assigned to the last nucleotide of the sequence, we show that writing these coordinates in a binary base can be obtained the coordinates of all the points associated to all the nucleotides which conform the genomic sequence, from there following a simple process we obtain the complete genomic sequence. However as N is a very large number, we segmented the extended genomic sequence (enlarged with the zero nucleotide) in p+1 blocks, p of them conformed by M nucleotides and one block for q<M nucleotides, thus N+1=pM+q; codifying each block we find that the complete genomic sequence can be codified by 3+2(p+1) numbers: M,p,q and the p+1 the coordinates of final nucleotide of each blocks, finally we describe the decoding processes for obtain the complete genomic sequence. Keywords –– Chaos Game Representation, genomic sequence, coding and decoding. I. INTRODUCCIÓN Una secuencia de DNA consiste de cuatro tipos de nucleótidos: Adenina (A), Guanina (G), Timina (T) y Citosina (C). El análisis matemático de una secuencia genómica (SG), requiere de la conversión de una secuencia simbólica a una secuencia numérica, de forma que los patrones y caracteres intrínsecos de la secuencia puedan ser caracterizados para llevar a cabo un procesamiento digital de señales, por lo que una representación efectiva debe capturar todas las propiedades biológicas significativas del genoma sin introducir ningún efecto espurio. En 1990, Jeffrey[1,2] propuso una representación numérica y gráfica de una secuencia de DNA inspirado en la representación del Juego del Caos de Barnsley (JCB) [3], que permite generar fractales utilizando un sistema de funciones iteradas. La representación gráfica de una secuencia genómica usando el Juego del Caos de Jeffrey (JCJ), es generada en un cuadrado unitario, donde se colocan en sus cuatro vértices los símbolos de los nucleótidos A,C,G y T, la representación gráfica del JCJ se construye al asociar a cada nucleótido de la secuencia del ADN, un punto dentro del cuadrado usando las siguientes reglas: al primer nucleótido de la secuencia genómica se le asocial el punto medio entre el centro del cuadrado y el vértice correspondiente al primer nucleótido de la secuencia, los puntos subsecuentes son generados por los puntos medios entre el punto anterior y el vértice que corresponde al nucleótido que esta siendo graficado. Las características importantes del JCJ son que las coordenadas de cualquier punto de la secuencia, contiene la información histórica de toda la secuencia precedente y muestra visualmente todas las frecuencias subsecuentes de la secuencia de DNA. El JCJ preserva todas las propiedades estadísticas de una secuencia dada de DNA, por lo que permite una investigación tanto local como global de los patrones en las secuencias de DNA revelando estructuras fractales ocultas dentro de las secuencias genómicas. El JCJ fue desarrollada para visualizar las frecuencias de distintos k-meros, dando como resultado una imagen bidimensional única para una secuencia genómica dada. Como el JCJ tiene la propiedad de diferenciar entre secuencias genómicas pertenecientes a diferentes especies, ha sido propuesta como la huella digital del genoma[4,6]. Sin embargo, la representación numérica de esta huella es una lista de valores de la misma longitud que las secuencias de DNA, que no se puede utilizar para almacenar, Codificación y Decodificación de Secuencias Genómicas. J.L. del Río-Correa1, Y.A. Álvarez -Ballesteros2, G. Durán-Meza3 1,2,3 Departamento de Física, UAM-Iztapalapa, México D.F., México. Teléfono (55) 5804-4624 Fax (55) 5804-4610 E-mail: jlrc@xanum.uam.mx comprimir o encríptar y comparar las secuencias de DNA. Recientemente Changchuan Yin[5] propuso una Representación Entera del Juego del Caos (REJC), que permite una codificación de las secuencias genómicas con tres números enteros. En la REJC se modifica el algoritmo de Jeffrey de manera que las coordenadas de cada punto de la secuencia son dadas por números enteros positivos y negativos, de forma que la nube de puntos asociados con la secuencia genómica ocupa todo el plano, por lo que no esta acotada, lo anterior hace que se pierda la representación gráfica de las secuencias genómicas. que ha mostrado ser una herramienta fundamental para el análisis de las secuencias de DNA. En este trabajo presentamos una Representación Entera alternativa que no modifica sustancialmente el JCJ, que permite pasar fácilmente a la representación habitual de Jeffrey. El proceso de codificación consiste en segmentar la SG en p+1 partes, p de ellos con el mismo número M de nucleótidos, y el último con q=NmodM nucleótidos, la codificación consiste en dar las coordenadas enteras de los puntos finales de cada segmento, N la longitud total de la secuencia y el valor seleccionado de M, por lo que la secuencia se codifica con 3+2(p+1) enteros. II. METODOLOGÍA EL JUEGO DEL CAOS DE BARNSLEY. Una forma simple de generar un conjunto fractal propuesta por Barnsley, es considerar el siguiente juego de azar: Dibuje un triángulo equilátero, identifique el primer vértice por los números 1,2; el segundo con los números 3,4 y el tercero con 5,6. Y proceda con los siguientes pasos: 1.- Seleccione un punto inicial arbitrario P0 dentro del triángulo. 2.-Lance un dado (no cargado), usando el resultado del lanzamiento seleccione PV, uno de los tres vértices del triángulo. 3.-Dibuje P1 el punto medio entre P0 y PV . 4.-Para dibujar el siguiente punto, repita el paso 2, considerando a P1 como el punto inicial. 5.- Repitiendo sistemáticamente los pasos anteriores dibuje un número grande de puntos. En principio uno esperaría que el resultado del juego del caos fuera una nube de puntos completamente aleatoria dentro del triángulo, sin embargo sorprendentemente la figura generada es un fractal conocido como el triángulo de Sierpinski, siendo la razón de esto, que la regla 3 corresponde a la aplicación de tres reglas de iteración de la forma: (1) donde es el vector de posición del n-ésimo punto, y del vértice k; la ecuación (1) corresponde a tres transformacionescontractivas con puntos fijos en los vértices del triángulo, estos tres puntos fijos tienen la misma intensidad de atracción, ya que su selección es igualmente probable, la configuración de “equilibrio resultante”, técnicamente llamada la distribución estacionaria del proceso estocástico generado por el Sistema de Funciones Iteradas, es el triángulo de Sierpinski. Dos aspectos relevantes del Juego del Caos de Barnsley son: a) Las transformaciones aplicadas son contractivas, b) Se selecciona al azar cada transformación. Cuando se implementa el juego del caos utilizando cuatro transformaciones contractivas cuyos vértices sean los de un cuadrado el resultado es un conjunto de puntos que llena homogéneamente el cuadrado, por lo que la distribución estacionaria es homogénea. Por otra parte, Barnsley encontró que utilizando dados cargados, se obtenían diferentes patrones en el cuadrado, lo que se logra matemáticamente al considerar un sistema de funciones iteradas con diferente probabilidad asociada a cada función, de manera que se obtienen fractales que reflejan el proceso estocástico utilizado, y el juego del caos abre la posibilidad de encontrar patrones que correspondan a distintos procesos estocásticos, usando distribuciones de variables independientes ó bien utilizando procesos de Markov, para los detalles de lo anterior véanse los capítulos X y XI del la referencia [2]. Representación de Jeffrey del Juego de Caos. En el Juego del Caos de Jeffrey, desaparece la componente estocástica del juego, ya que en lugar de seleccionar un proceso estocástico para determinar el vértice a escoger, se utiliza una serie determinista que se obtiene de una secuencia genómica, que es una serie muy grande de símbolos asociados a una secuencia de DNA, obteniéndose una representación gráfica ó retrato de la Secuencia Genómica. En el sentido probabilístico, esto puede entenderse como que cada secuencia genómica es la realización de un proceso estocástico diferente. Una secuencia de DNA es una lista de cientos de miles o de millones de caracteres del siguiente tipo: R Vk REPRESENTACIÓN GRÁFICA DEL JUEGO DEL CAOS DE JEFFREY . Se construye un cuadrado unitario Q asociando a cada uno de sus vértices con una de las cuatro bases que constituyen el alfabeto de la secuencia genómica, así denotando a las bases por las letras A,C,G y T, los vértices de Q son: A 0,0( );C 0,1( );G 1,1( );T 1,0( ); (2) Para obtener la representación gráfica de una secuencia genética (SG), se sigue el siguiente proceso iterativo: a) Se selecciona un punto semilla X0 dentro del cuadrado, que en general puede ser arbitrario pero que por simplicidad geométrica Jeffrey selecciona X0 como el punto medio de Q, b) Al primer término de la SG se le asocia el punto X1, que es el punto medio de la línea que une X0 con el vértice del cuadrado cuya esquina coincide con el término de la secuencia genómica. c) Al segundo término de la SG se le asocia el punto X2, que es el punto medio de la línea que une el punto X1 con el vértice de Q cuya esquina coincide con el término de la secuencia. d) Repitiendo este proceso para toda la secuencia de DNA se generan tantos puntos como tenga la secuencia dada de DNA. Para ejemplificar el Juego del Caos de Jeffrey, tomaremos la secuencia genómica GATCCA, y mostraremos cómo graficar estos seis puntos de la secuencia. Como el primer símbolo corresponde a la Guanina, dibujamos la línea que va del centro del cuadrado al vértice marcado con la letra G, y colocamos un punto rojo en el punto medio del segmento P0G, que denotamos por P1, para encontrar el segundo punto, vemos que el segundo símbolo de la secuencia es A, por lo que trazamos el segmento P1A y tomando su punto medio se encuentra el punto P2. Figura 1. Gráfica correspondiente a la secuencia GATCCA El siguiente símbolo en la secuencia es T, por lo que trazamos el segmento P2T y tomando su punto medio se determina P3. Para encontrar el siguiente punto , usamos que el cuarto símbolo es C, trazamos el segmento P3C y encontramos su punto medio que es P4. Repitiendo el proceso para C y A, encontramos P5 y P6. (Ver Fig.1). Figura 2. Gráfica del cromosoma 21 del Homo Sapiens Como se puede ver, el proceso es relativamente simple cuando se lleva a cabo con una secuencia pequeña, sin embargo una secuencia genética consta cientos de miles o millones de puntos, por lo que la gráfica se tiene que hacer usando una computadora y además dado que es finito el tamaño de un pixel gráfico, no existe una relación biunívoca entre los puntos de la secuencia y los pixeles gráficos que conforman la figura que se obtenga, sin embargo esta pálida foto de la secuencia genómica es diferente para cada secuencia, mostrando claramente una estructura multifractal como puede verse en la representación gráfica del cromosoma 21 del Homo Sapiens, mostrada en la Fig.2. III. RESULTADOS ESTUDIO ANÁLITICO DEL JUEGO DEL CAOS DE JEFFREY Para calcular lar coordenadas de los puntos generados por la secuencia genómica al usar el JCJ, es conveniente utilizar la representación binaria. Como todos los puntos caen dentro del cuadrado unitario, sus coordenadas (X,Y) son de la forma: X = b j 2 jJ=1 N å = 0.b1b2...bN ;Y = B j 2 jJ=1 N å = 0.B1B2...BN ; (3) Las coordenadas del centro del cuadrado y de los vértices asociados a cada nucleótido son las siguientes: P 0 A C G T X 0.1 0 0 1 1 Y 0.1 0 1 1 0 (4) Figura 3. Cuadrado unitario, y sub-cuadrados de primer y segundo orden. Las coordenadas del primer punto dependen de cuál sea el primer nucleótido V1 de la SG, siendo dadas por la relación: X̂ V 1 = 1 2 X 0 1 +V 1X( ) = .01+ V1 X2 = .V1X1; Ŷ V 1 = 1 2 Y 0 1 +V 1Y( ) = .01+ V1Y2 = .V1Y1; (5) Las 4 coordenadas posibles para el primer punto, por (4) y (5), corresponden a los puntos medios de los sub-cuadrados de primer orden, QA,QC,QG y QT : X̂ A = X̂ C = 1 2 X 0 = .01; X̂ G = X̂ T = 1 2 X 0 + 1 2 = .11; Ŷ A = Ŷ T = 1 2 Y 0 = .01; Ŷ C = Ŷ G = 1 2 Y 0 + 1 2 = .11; (6) Las 16 coordenadas posibles del segundo punto están dadas por las relaciones: (7) que son las coordenadas de los puntos medios de los sub- cuadrados de segundo orden: (8) las 4R coordenadas posibles para el R-ésimo nucleótido de la SG son: X̂ V 1 V 2 ...V R = 1 2 X̂ V 1 V 2 ...V R-1 + X V R ( ) = 0.VRXVR-1X ...V2 XV1X1 Ŷ V 1 V 2 ...V R = 1 2 Ŷ V 1 V 2 ...V R-1 + Y V R ( ) = 0.VRYVR-1Y...V2YV1Y1 (9) que son las coordenadas de los centros de los sub-cuadrados de R-ésimo orden. Este resultado permite construir un algoritmo simple para encontrar las coordenadas que corresponden a cualquier miembro de la secuencia genómica; iniciando la secuencia con el punto medio P0, colocando debajo de cada símbolo del nucleótido las coordenadas correspondientes a su vértice; agregando el punto decimal después del símbolo del que se desea conocer su coordenada, y finalmente leyendo de derecha a izquierda se obtienen las coordenadas del punto deseado, como se muestra en (10). P 0 V 1 V 2 ... V R 1 V 1X V 2 X ... V RX 1 V 1Y V 2Y ... V RY ;P VR = 0.V RX ... V 2 X V 1X 1 0.V RX V 2 X V 1X 1 æ è ç ç ö ø ÷ ÷ (10) re-escribiendo (10) en la forma: X R = V jX 2R+1- jj=0 R å = 1 2R+1 I RX ; I RX = V jX 2 j j=0 R å ;V0 X = 1; Y R = V jY 2R+1- jj=0 R å = 1 2R+1 I RY ; I RY = V jY 2 j ; j=0 R å V0Y = 1; (11) expresamos las coordenadas de PR en términos de la terna de enteros (R,IRX,IRY) La ecuación (10) implica que si dos secuencias genómicas compuestas por R nucleótidos difierenen cualquiera de ellos, las coordenadas de PR son diferentes, como esto es válido para toda R, dada una SG existe una sola Secuencia de Puntos (SP) asociada con ella, caracterizada por una terna de números enteros. Observamos de (10) que conociendo las coordenadas de PR, se encuentran todas las coordenadas de los puntos anteriores, ya que moviendo el punto decimal K lugares a la derecha y despreciando la parte entera se encuentran las coordenadas del punto P(R-K), de manera que: X R-K Y R-K æ è ç ö ø ÷ = 2K X R mod1 2K Y R mod1 æ è ç ö ø ÷ ; (12) en tanto que la terna que caracteriza a la SP de R-K elementos: (R-K,I(R-K)X, I(R-K)Y) es: I R-K( )X = Int 1 2K I RX æ èç ö ø÷ ; I R-K( )Y = Int 1 2K I RY æ èç ö ø÷ ; (13) Así, podemos obtener a partir de PR todos los puntos que lo preceden. De manera que dado PR conocemos toda la SP asociada a la SG. De (11), vemos que conociendo la terna de enteros, el primero nos da la longitud de la secuencia genómica, los dos restantes al expresarlos en binario permiten encontrar la secuencia genómica correspondiente; ya que expresando los enteros (IRX,IRY) en base dos con R+1 cifras significativas, se obtiene el conjunto {VjX.VjY), y utilizando (4) podemos encontrar la secuencia genómica. Por lo que hay una relación biunívoca entre las SP y las SG. Para ilustrar lo anterior encontraremos la terna que caracteriza la secuencia genómica TACGGTACT. Esta SG tiene R=9 elementos, para codificarla, empezamos por agregar el punto V0, con coordenadas (1,1), y a continuación los nucleótidos de la SG dada; colocamos debajo de cada nucleótido las coordenadas de su vértice en X̂ V 1 V 2 = 1 2 V̂ 1X + V 2X( ) = 1 2 X̂ V 1 + X V 2 ( ) = .0V1X1+ V 2X 2 = 0.V 2X V 1X 1 Ŷ V 1 V 2 = 1 2 V̂ 1Y + V 2Y( ) = 1 2 Ŷ V 1 + Y V 2 ( ) = .0V1Y1+ V 2Y 2 = .V 2Y V 1Y 1 Q AA ,Q AC ,Q AG ,Q AT ; Q CA ,Q CC ,Q CG ,Q CT ; Q GA ,Q GC ,Q GG ,Q GT ; Q TA ,Q TC ,Q TG ,Q TT ; el JCJ dadas por (4), encontrando las coordenadas en binario del punto asociado al último nucleótido de la secuencia. Usando (11) se encuentran los enteros correspondientes a la abscisa y ordenada del último término de la SG, que se expresan en una base 10. Haciendo lo anterior tenemos: SG V 0 TAC GGTA CT X 1100 1110 01 Y 1001 1100 10 æ è ç ç ç ö ø ÷ ÷ ÷ I 9 X = 20 + 21 + 24 + 25 + 26 + 29 = 627 I 9Y = 20 + 23 + 24 + 25 + 28 = 313 (14) Así, la secuencia TACGGTACT es codificada por la terna (9,627,313) Procederemos ahora a mostrar el proceso de decodificación, dada la terna (9,627,313), queremos encontrar la SG. El primer número indica que la SG esta compuesta por 9 nucleótidos, para encontrarlos se construye una matriz de 3 renglones y (R+1) columnas; en los dos primeros renglones expresamos en binario con 10 cifras significativas los enteros 627 y 319, en el tercer renglón usando (4) se identifican los R símbolos de los nucleótidos, la última columna contiene las coordenadas asociadas a V0, finalmente se encuentra la SG leyendo el tercer renglón de derecha a izquierda, I 9 X 627 = 1001 1100 11 I 9Y 313 = 0100 1110 01 SG ¬ TCAT GGCA TV 0 ¬ (15) Usando (11), podemos encontrar las coordenadas del último punto de la secuencia, X 9 = 627 210 = 1 210 x 1001110011( ) = 0.1001110011 Y 9 = 313 210 = 1 210 x 1001110001( ) = 0.1001110001 (16) usando este resultado junto con (13) se encuentra las coordenadas de cualquier punto anterior al noveno, por ejemplo si se desea encontrar las coordenadas del quinto punto, tenemos que 9-4=5, de forma que K=4, por lo que: X 5 = 24 X 9 mod1= 1001.110011( )mod1= 0.110011 Y 5 = 24Y 9 mod1= 1001.110001( )mod1= 0.110001 (17) Seleccionando R igual a N, donde N es el número de nucleótidos que conforman la SG, en principio podemos obtener la terna (N,INX,INY) que contienen la información completa de toda la secuencia genómica. IV. DISCUSIÓN Sin embargo, debido a que N es muy grande su implementación presenta dos problemas, el primero de ellos es el análisis gráfico, debido a que las coordenadas de los puntos son cada vez números más pequeños en cuanto aumenta el número de nucleótidos de la secuencia, por lo que no es factible graficarlo exactamente, ni tampoco calcularlos numéricamente, ya que después de cierto rango de valores, que dependiendo del número más pequeño que pueda manejar la computadora, solamente se están agregando ceros, de manera que aunque en principio podemos conocer las coordenadas del último nucleótido de la secuencia, no podemos calcularlo en la práctica, el segundo problema consiste en compactar la información de la secuencia genómica, ya que por cada nucleótido se requieren dos bits, de forma que el almacenamiento de las coordenadas del último nucleótido requiere de 2N+1 bits de memoria, por lo que tenemos que diseñar algún mecanismo que nos permita tener toda la información contenida dentro de la secuencia genómica. Para ello, procedemos a dividir la SG, con el “nucleótido cero” V0 incluido. Consideremos p grupos de M nucleótidos y uno adicional de q<M nucleótidos: GRUPO a = 0; a = 1;... V 0 V 1 ...V M-1( ) VMVM+1...V2 M-1( )... a = p-1; a = p; V p-1( )M V p-1( )M+1 ...V pM-1( ) VpMVpM+1...VpM+q( ) (18) de manera que pM+q=N+1. Cada grupo genómico se caracteriza por una terna, por lo que toda la SG se caracteriza con los 3 enteros y p+1 pares de coordenadas enteras: (19) Las coordenadas de los pares se encuentran utilizando que la siguiente suma de N+1 elementos, con Vj(0,1), se puede expresar como: (20) Como los elementos Vj solo pueden ser cero ó uno, el rango de valores para los enteros es el siguiente (21) Para ejemplificar el proceso antes descrito, consideremos la codificación de una secuencia con 30 nucleótidos. Seleccionando M=8, formamos p=3 grupos de 8 y 1 de q=7 nucleótidos: SG V 0 ACT GGTA TTGT ACTC X 1001 1110 1111 0010 Y 1010 1100 0010 0101 SG CTAA CCCT AGGT TGC X 0100 0001 0111 110 Y 1000 1110 0110 011 (22) Usando (20) obtenemos: N 0 X = 20 + 23 + 24 + 25 + 26 = 121 N 1X = 20 + 21 + 22 + 23 + 26 = 79 N 0Y = 20 + 22 + 24 + 25 = 53 N 1Y = 22 + 25 + 27 = 164 N 2 X = 21 + 27 = 130 N 3X = 21 + 22 + 23 + 24 + 25 = 62 N 2Y = 20 + 24 + 25 + 26 = 113 N 3Y = 21 + 22 + 25 + 26 = 102 (23) por lo que la secuencia genómica: ACTGGTATTGTACTCCTAACCCTAGGTTGC esta caracterizada pot los enteros (8,3,7) y los pares (121,53),(79,164), (130,113), (62,102). Supongamos ahora que se quiere obtener la secuencia genómica codificada por: [8,3,7; (121,53),(79,164), (130,113), (62,102)] La SG esta constituida por 31 nucleótidos incluyendo V0 ; 1) Separada en 3 grupos de 8 nucleótidos y uno más de 7 nucleótidos, 2) el proceso de decodificación se hace de manera similar al mostrado en (23). 3) Al expresar en binario las coordenadas de los primeros 3 grupos, se requieren 8 cifras significativas; y en el último grupo se consideran 7 cifras significativas. 4) en el primer par de coordenadas esta incluido V0; Decodificación de los grupos 121 = 0111100 1 79 = 01001111 53 = 0011010 1 164 = 10100100 ATGGTCAV 0 CTCATGTT 130 = 10000010 62 = 0111110 113 = 01110001 102 = 1100110 TCCCAATC CGTTGGA (24) La SG se encuentra leyendo cada grupo de derecha a izquierda y tomando la unión ordenada de ellos: ATGGTCAV 0 CTCATGTT TCCCAATC CGTTGGA SG : V 0 ACTGGTA TTGTACTC CTAACCCT AGGTTGC (25) V. CONCLUSIONES El proceso de codificación que se propone para una secuencia genómica de R nucleótidos, consiste en agregar al inicio de la secuencia el “nucleótido cero” de coordenadas(1,1), sustituir cada nucleótido por las coordenadas habituales del Juego del Caos de Jeffrey dadas por (27), con lo que se obtienen dos números binarios con N+1 cifras significativas, cuando se coloca el punto decimal al principio de la secuencia se obtienen las coordenadas del último nucleótido de la secuencia en la Representación Gráfica del Juego de Caos de Jeffrey, pero cuando se coloca el punto decimal después del último dígito, se obtiene un par de enteros binarios, similares a los propuestos por Yin, expresando estos números en una base adecuada, (p.e. base 10), se encuentran dos enteros impares, (NX,NY) y toda la secuencia queda codificada por su longitud R y un par de enteros impares positivos. Por otra parte hemos propuesto segmentar la secuencia genómica extendida, en p+1 segmentos, p de ellos de longitud M, uno de longitud q<M, y codificar cada uno de los segmentos, siguiendo un proceso similar al antes descrito, por lo que la secuencia completa se codifica con los enteros: M, p, q y N a X ,N aY( );a = 0, p( ),v.gr.: (26) para la decodificación se toma en cuenta que los tres primeros enteros M, p, q, nos indican: 1.- El número de nucleótidos que conforman la secuencia genómica extendida (incorporando V0) esta dado por N+1=Mp+q; 2.- La SG esta segmentada en p grupos de M y uno de q nucleótidos. 3.-Las p+1 coordenadas enteras, dan la codificación de cada uno de los grupos. La decodificación se hace expresando las coordenadas de cada grupo en binario, con las siguientes características: 1.- Con M cifras significativas para los primeros p pares. 2.-Con q cifras para el último par; 3.-Se identifican los nucleótidos de cada grupo utilizando el siguiente código: A C G T X 0 0 1 1 Y 0 1 1 0 (27) 4.- Para el primer par se debe tener en cuenta que el primer término NO corresponde con el nucleótido G, sino con el “nucleótido Cero” V0, 5.-Para cada grupo se lee la secuencia de nucleótidos de derecha a izquierda. 6.-La SG se encuentra uniendo ordenadamente las secuencias de todos los grupos, Cuando se tiene una sola secuencia genómica de N elementos, solamente se requieren tres enteros (N,INX,INY), siendo su proceso de decodificación idéntico al anterior. REFERENCIAS [1] Jeffrey H. J., Chaos game representation of gene structure. Nucleic Acids Res. 18:2163–2170, 1990. [2] Jeffrey,H.J. (1992), Chaos Game visualization of sequences, Comput. & Graphics, 16, 25-33. [3] M.F. Barnsley, Fractals everywhere, Second Edition, AP Professional [4] Deschavanne P. J., Giron A., Vilain J., Fagot G., Fertil B: Genomic signature: characterization and classification of species assessed by chaos game representation of sequences. Mol. Biol. Evol. 16:1391- 1399, 1999. [5] Changchuan Yin. Encoding and Decoding DNA Sequences by Integer Chaos Game Representation. Journal of Computational Biology Volume 26, Number 0, 2019. [6] Almeida, J.S, Analysis of genomic sequences by chaos game representation. Bioinformatics 17: 429-437, et al. 2001.