El Higgs se encontró en un acelerador gigante... gracias a miles de servidores

En el famoso CERN cuentan con miles de equipos para almacenar la información que sus experimentos generan desde los años 50, y que se comparte con científicos de todo el mundo. Antes solo había uno: el NeXT que utilizó Tim Berners-Lee para inventar la World Wide Web.

En la sala de control del centro de datos siempre hay una persona vigilando que todo marcha bien

18 de agosto de 2014 10:30 h

En 1958, cuatro años después de su creación, llegaba al Centro Europeo para la Investigación Nuclear (CERN) el primer ordenador del que ha pasado a ser el mayor laboratorio de investigación en física de partículas a nivel mundial. Las instalaciones, que ocupan unas 600 hectáreas en la frontera franco-suiza, se convirtieron en el foco de atención cuando, hace ya dos años, un equipo de científicos logró observar un grupo de diminutas partículas que hasta entonces solo habían aparecido en los enrevesados teoremas de los libros.

El descubrimiento marcó un antes y un después en la ciencia de lo (prácticamente) invisible: el bosón de Higgs había emergido de las profundidades atómicas para sorprender al mundo. La gente hablaba de él por la calle, las explicaciones sobre la naturaleza de 'la partícula divina' se multiplicaban, copaba las portadas de los periódicos y hasta las abuelas mencionaban a Higgs entre puntada y puntada de ganchillo. Había nacido una estrella.

Entre tanta expectación, pocos repararon en el trabajo que respalda a tal hallazgo, y a todos los experimentos que no se han visto reflejados en la prensa. Años de investigaciones y resultados contenidos en miles de documentos, bases de datos y cálculos de variables infinitas.

El volumen de información generado entre las paredes del laboratorio europeo no cabe en memorias USB, ni aunque todos los miembros de la institución llevaran una en el bolsillo.

“Los datos del CERN representan la historia de la investigación humana en física de alta energía”, asegura a HojaDeRouter.com Alberto Pace, director del Departamento de Datos y Almacenamiento de la institución. Pace dice que la información no solo les pertenece a los científicos, sino que es propiedad de toda la humanidad, así que su deber es guardarla “para siempre”. Este compromiso es inherente a la investigación que se desarrolla en el centro, y ha sido posible en gran parte gracias a la evolución de la informática y la tecnología que allí utilizan.

Una calculadora gigante

Volvamos a los orígenes, a aquel ordenador que instalaron en los 50: un Ferranti Mercury que ocupaba una habitación entera y cuya capacidad de cálculo se aproximaba bastante a la de una calculadora de las más simples de hoy en día. El almacenamiento que permitía su escasa memoria de núcleos magnéticos equivale al generado por una sola de las colisiones entre protones que tienen lugar en el Gran Colisionador de Hadrones (LHC por sus siglas en inglés, un enorme tubo kilométrico que recorre las entrañas del CERN), donde apareció por primera vez la famosa partícula.

En 1960, la antigualla fue sustituida por un equipo más moderno, un IBM 709, que llegó en avión al aeropuerto de Ginebra. Pero la verdadera hazaña informática, también fruto del gran volumen de documentos que los investigadores generaban, tuvo lugar algunos años más tarde.

En 1989, uno de los científicos del CERN, Tim Berners-Lee, describía por primera vez el protocolo de transferencia de hipertexto. Bautizó su primera creación como Enquire, una base de datos para organizar la ingente cantidad de información que comenzaba a acumularse sin control. Inventaba así lo que posteriormente constituiría nada menos que la 'World Wide Web': la telaraña cibernética que hoy conecta todos los ordenadores del mundo para transferir imágenes, archivos y todo tipo de documentos a través de internet.

Berners-Lee utilizó para diseñar la Web un equipo que se convirtió en el primer servidor del laboratorio: un ordenador NeXT, diseñado por el mismísimo Steve Jobs durante su etapa fuera de Apple, que pese a su potencial nunca tuvo mucho éxito en el mercado.

La computación avanzaba a pasos agigantados en el CERN, pero la capacidad de almacenamiento continuaba brillando por su ausencia. Un disquete de finales de los 80 podía guardar como mucho medio megabyte. Y había que viajar hasta China para encontrar un disco duro de 10 megas que tardara ‘solo’ un minuto en ejecutar cualquier acción.

Hoy en día hay algún que otro equipo más. “Tenemos un centro de datos integrado por más de 10.000 servidores que albergan 80.000 discos duros”, señala Pace. La instalación, ubicada en el edificio 513 desde 1972, consta de dos partes: la sala principal, de 1.400 m, y un sótano de 1.200. Los equipos garantizan el almacenamiento y la accesibilidad de los datos más recientes.

Para los archivos antiguos el procedimiento cambia. “Utilizamos cintas magnéticas que tienen la ventaja de que son más fiables, no consumen electricidad y no se pueden eliminar en cuestión de segundos”, prosigue.

Cuando todas las máquinas del edificio 513 trabajan a pleno rendimiento, generan enormes cantidades de calor. Recordemos que en un principio la estancia estaba pensada para albergar un superordenador en una esquina, no varios miles de procesadores. Para enfriarlos, los corredores siguen una configuración concreta: los equipos están colocados para que expulsen el aire caliente en la misma dirección, a un pasillo ‘cálido’. La refrigeración llega desde abajo. Unas tuberías toman aire del exterior, lo enfrían y lo introducen en la sala desde el suelo. En invierno ahorran energía, porque no es necesario disminuir su temperatura.

Se necesitan refuerzos

La necesidad de espacio sigue creciendo. En 2012, el laboratorio europeo incluyó en su infraestructura de datos al Centro Wigner de Investigación en Física de Hungría, para aumentar la capacidad de análisis con 20.000 procesadores y de almacenamiento con 5,5 petabytes libres. Es también una manera de garantizar la recuperación de los archivos si los sistemas informáticos de la sede principal fallasen. Por si esto fuera poco, el año pasado se incrementó el suministro eléctrico del centro suizo (de 1,9 MW a 3,5) por si necesita añadir servidores a su flota.

Uno de los equipos más prolíficos en la generación de información científica es el LHC: cuando se pone en marcha puede producir una media de 100 terabytes diarios. “La información bruta es generada a una velocidad de 1 millón de gigabytes por segundo”, indica John Rollason, uno de los responsables de la empresa NetApp, una de las compañías externas que gestiona las bases de datos del CERN desde 2007. “Este volumen se convierte después en datos legibles y tratables que son analizados posteriormente, lo que supone más de 20 petabytes al año”, continúa.

El LHC está actualmente parado, pero comenzará a funcionar de nuevo en 2015 con una potencia superior a la utilizada durante las primeras fases del experimento ATLAS, en el que se descubrió el Higgs. Concretamente, el doble. Más potencia significa también una mayor cantidad de colisiones y, por tanto, de datos. Para hacerse una idea: estos choques suceden unas 40 millones de veces por segundo. Los cuatro enormes detectores (una especie de cámaras digitales) tienen que tomar millones de fotografías y los sensores deben medir cientos de variables para no perderse detalle.

Con tal cantidad de información que procesar, analizar y conservar, no es de extrañar que desde 2002 el LHC disponga de su propia Red Mundial de Computación (la ‘Worldwide LHC Computing Grid’, en inglés), basada en el primitivo Enquire de Berners-Lee. Funciona con su versión particular del sistema operativo Linux, el ‘Scientific Linux’.

Esta tecnología se apoya en dos estructuras más: la ‘European Grid Infraestructure’ y la ‘Open Science Grid’ estadounidense, además de otras a nivel regional, como la TWGrid de Taiwan y la EU-IndiaGrid, de la que se sirven distintos centros científicos de Europa y Asia.

El responsable del CERN menciona algunos de los retos a los que se enfrentan los ingenieros informáticos de la institución: “Tenemos que almacenar los datos a tiempo real (entre 6 y 7 gigabytes por segundo), asegurar su mantenimiento al menor coste posible y distribuirlos al resto de centros de datos de los niveles uno y dos”.

Rollason añade uno más: “Hay que anticiparse a las necesidades de los científicos que hacen los experimentos”. Estos requerimientos son impredecibles y cambian tan rápidamente como los resultados de las investigaciones. “Los iones de plomo dan lugar a colisiones especialmente complicadas que pueden hacer imposible estimar la velocidad de generación de datos”, dice el responsable de NetApp. “Una vez, esta tasa llegó a superar cinco veces a la que habíamos previsto”.

Los escalones de la tela de araña

Como indica Pace, la red o ‘grid’ por donde circula toda este flujo de información se estructura en niveles. El cero (‘Tier-0’) corresponde al centro de datos ubicado dentro de las fronteras del CERN, junto con su análogo húngaro. Allí es donde se almacena la información bruta y tienen lugar las primeras etapas del tratamiento: se filtra mediante ‘software’ especializado para detectar las novedades en las mediciones, se eliminan las que no tienen ningún interés y se reestructuran las defectuosas.

Después, los datos son enviados a instalaciones científicas de otras partes del planeta. “Cientos de universidades y laboratorios están colaborando en nuestros proyectos”, señala el miembro del CERN. En la actualidad, la red del LHC conecta miles de ordenadores y sistemas de almacenamiento de más de 130 centros situados en 40 países.

Una conexión de fibra óptica con una velocidad de 10 gigabytes por segundo vincula el nivel cero con los 15 enclaves que constituyen el siguiente escalón. Uno de ellos es el Port d’Informació Científica (PIC), un centro tecnológico catalán en cuya gestión colaboran la Universidad Autónoma de Barcelona, el Centro de Investigaciones Energéticas, Medioambientales y Tecnológicas, la Generalitat de Cataluña y el Instituto de Física de Altas Energías.

El PIC y el resto de instituciones que integran el nivel uno, proporcionan soporte a la red, almacenan y procesan una parte de los datos. Además, redistribuyen otros tantos al segundo nivel, que se encarga de analizar y realizar las simulaciones correspondientes. Unas 155 universidades y otras instituciones científicas conforman esta parte del sistema (siete en España).

El último, el nivel 3, está integrado por los sistemas informáticos a nivel local, es decir, los equipos de los propios investigadores que trabajan desde cualquier parte del mundo.

En los tiempos de Berners-Lee era impensable que un físico del otro lado del charco pudiera utilizar los mismos archivos que él, en las mismas condiciones y al mismo tiempo. Desde entonces, los servidores del CERN han pasado de ser uno (el mítico NeXT) a integrar un ejército de más de 10.000, sin contar con la biblioteca de cintas magnéticas que almacenan la información más antigua.

“Los datos de los experimentos iniciales son una pequeña fracción de los que se producen en los de nueva generación”, señala Pace. Y el CERN no tiene pensado cerrar sus puertas, así que el número de equipos solo puede crecer en línea con su filosofía de guardar el conocimiento que genera por los siglos de los siglos.

-----------

Las imágenes que aparecen en este artículo son propiedad, por orden de aparición, de CERN(1), HoangP, CERN(2), CERN(3), CERN(4), CERN (5), Cory Doctorow, WLCG, CERN (6)