El genoma humano, 200 millones de letras más cerca

En 2000 se compartió el primer borrador de un genoma humano secuenciado, que se publicaría en las revistas Nature y Science al mismo tiempo en 2001. Pero no estaba completo. En los años siguientes se fueron rellenando las letras de nuestro manual de instrucciones hasta que en 2003 ya habíamos leído un 92% de ese libro. Pero no estaba completo. En 2009 se publicó una nueva versión, que se actualizó en 2013. Pero seguía sin estar completo.

La finalización del Proyecto Genoma Humano provocó un gran revuelo mediático a comienzos de siglo. Las sucesivas actualizaciones fueron generando menos atención, hasta que en mayo de 2021, en plena pandemia de Covid-19, el consorcio internacional Telomere-toTelomere (T2T) publicó la secuencia más completa hasta la fecha de forma preliminar. Este miércoles, un número especial de la revista Science ha publicado el trabajo final, ya revisado por pares y acompañado de otros artículos relacionados.

“El primer genoma humano lo conocimos en 2001, pero lo que teníamos era un borrador lleno de agujeros por todos los lados”, explica a elDiario.es el investigador del Centro Nacional de Biotecnología Lluís Montoliu. “En 2003 se cerraron bastantes agujeros, aunque no se recuerda tanto, y después se fue completando progresivamente hasta conseguir el genoma de referencia actual de 2013 que hemos utilizado hasta ahora”, resume.

¿Qué se ha logrado?

La versión de referencia actual del genoma humano tiene millones de bases representadas por la letra N, lo que indica que el nucleótido que ocupa esa posición se desconoce. Además, alrededor de un 8% de nuestro libro genético no está representado, o lo está de forma incorrecta o mediante modelos.

“Esto ha hecho que los números de genes que aparecen en las bases de datos sean ligeramente variables, porque muchos son predicciones informáticas que van variando según el ensamblaje sea de una manera o de otra”, aclara Montoliu.

El consorcio T2T ha logrado añadir unas 200 megabases —200 millones de letras— de información genética. Se trata de “ADN intergénico” formado por interruptores que regulan, activan y silencian genes según corresponda en cada célula. Estos pequeños elementos están rodeados por un mar de secuencias repetitivas de ADN satélite cuya secuenciación es muy difícil. Todo esto es lo que los investigadores han logrado añadir.

A Montoliu le gusta comparar el hito con un puzle. “Tienes una foto del puzle, que es el genoma ensamblado, y te dan 5.000 piezas. Pero cuando te las dan te sobran 100 que no tienen agujero donde ponerlas”, explica. “Lo que han hecho los investigadores es ampliar la foto del puzle y generado agujeros nuevos en los que ahora encajan las piezas que antes no sabías dónde iban”.

¿Por qué se ha tardado tanto?

Las tecnologías de secuenciación han evolucionado muchísimo en los últimos 20 años. La secuenciación artesanal del Proyecto Genoma Humano costó unos 2.700 millones de dólares y más de una década, mientras que hoy se puede hacer por menos de 1.000 dólares y en menos de 24 horas.

Montoliu señala que la secuenciación masiva actual tiene muchos beneficios, pero también limitaciones. “Las máquinas actuales dan cachitos muy pequeños de ADN, de cien o doscientos pares de bases. Luego un ordenador con programas muy potentes los tiene que ubicar donde encajen”, explica. Como consecuencia de esta estrategia no se sabía qué hacer con muchos fragmentos, que iban a parar a un cajón de sastre.

Portada de la revista 'Science' correspondiente al mes de abril de 2022, un número especial sobre la secuenciación del genoma humano

“Hay un porcentaje importante de secuencias que no sabíamos a qué cromosoma pertenecían”, dice Montoliu. El consorcio T2T ha utilizado nuevas tecnologías de secuenciación llamadas PacBio y NanoPore para intentar detectar y rellenar esos agujeros. Esta última “hace pasar una cadena de ADN larguísima por un poro, tanto como se pueda, y conforme pasa por el centro va leyendo la letra”, según explica el investigador. “Es como enhebrar la aguja con un hilo”.

¿Para qué sirve conocer esa parte?

Los autores predicen la existencia de casi 2.000 genes o secuencias que podrían comportarse como tales. De esas, 99 podrían codificar proteínas.

“Tenemos 99 genes nuevos de los que no teníamos ni idea y que estaban ahí”, afirma Montoliu. El investigador, que trabaja con enfermedades raras, confía en que esto pueda ayudar a los pacientes. “Tenemos el problema de que entre un 30 y un 40 % de los pacientes sabemos que tienen la enfermedad por sus síntomas, pero cuando secuenciamos no encontramos mutación. No sabemos cuál es el diagnóstico genético, la causa molecular de ese síndrome”.

Son las llamadas enfermedades no diagnosticadas. “No diagnosticadas porque se nos ha acabado donde mirar, pero si había un 8% del genoma que no revisábamos igual está en esa zona las diferencias y no estábamos mirando en el sitio adecuado”, dice Montoliu. Por todo eso, cree que el nuevo estudio ofrece esperanza a algunos pacientes.

Entonces, ¿el genoma humano ya está completo?

La secuencia publicada no contiene el cromosoma sexual Y, ya que las células secuenciadas carecían de él. Aun así, los autores ya trabajan para poder añadirlo en el futuro.

Montoliu señala que este no es el único “agujero” con el que cuenta el nuevo genoma. “El sistema utilizado tiene la ventaja de poder leer secuencias muy largas, pero tiene más errores y entonces hay que pasar muchos hilos por la aguja para hacer una valoración estadística de la secuencia”, añade. Solo así se puede confirmar que la letra A leída es, efectivamente, una A.

El genoma humano todavía no está completo. “Es un progreso incremental: sabemos un poco más que antes. ¿Cuánto nos falta? Es muy difícil, porque tenemos un montón de secuencias que no sabemos dónde poner”, comenta Montoliu.

“Me gustaría leer el cromosoma entero sin dejarme una sola letra, pero no tenemos aplicaciones que puedan secuenciar cromosomas enteros”, lamenta Montoliu.

Sistemas como NanoPore pueden leer como mucho un millón de bases, cuando un cromosoma lo forman cien millones. En ese proceso es complicado que el hilo que enhebra la aguja no se rompa: “Si se pudiera hacer estaríamos más cerca de tener el genoma entero, pero hasta entonces hay que trocearlo. Te dan millones y millones de secuencias pequeñitas y un ordenador las va ubicando”.

¿Y ahora qué?

Montoliu espera que este nuevo genoma de referencia sirva para diagnosticar pacientes, pero cree que no deberíamos quedarnos ahí y defiende tener en cuenta las variantes poblacionales. “No basta con uno, porque si te aplico uno de una persona anglosajona es posible que pueda ver diferencias que pueda interpretar erróneamente como mutaciones cuando solo son polimorfismos poblacionales”, asegura.

Además, considera que el trabajo del consorcio T2T es un ejemplo del valor que tienen los preprints, ya que el estudio que hoy es portada de Science fue compartido en bioRxiv hace casi un año. “Empoderan al investigador y le quitan la novedad a la revista”, asegura. La pandemia ha cambiado el sistema de publicaciones científicas y dado más libertad a los científicos a la hora de compartir sus resultados preliminares.