— ANÁLISIS

Al final, el fallo humano: así se desató el caos en la red de British Airways

El problema de red que dejó cientos de vuelos en el suelo lo provocó un empleado impaciente
No es el primer problema de diseño y operación que deja a una aerolínea fuera de combate
¿Son los recortes de costes responsables de un aumento del riesgo informático?

British Airways tuvo que cancelar cientos de vuelos por el fallo informático EFE

2 de junio de 2017 20:29 h

El 27 de mayo, todas las operaciones de vuelo de la aerolínea británica British Airways desde los aeropuertos londinenses de Gatwick y Heathrow (entre los más ocupados del mundo) fueron suspendidas, lo que provocó la cancelación de más de 1.000 vuelos en todo el mundo y dejó a más de 75.000 pasajeros tirados en 170 aeropuertos de 70 países diferentes.

Los vuelos de Iberia, Vueling y Aer Lingus, aerolíneas pertenecientes al grupo IAG igual que British Airways, no se vieron afectados, pero sí la página web, que durante un par de horas fue inaccesible desde Europa y no permitía culminar reservas desde EEUU. Los sistemas afectados incluían no solo las comunicaciones externas, que dejaron a la aerolínea incapacitada para enviar mensajes de texto o correos a sus clientes, la web de medios inoperativa y Twitter como único canal de comunicación, sino a los procedimientos internos.

Esto obligó a cancelar los vuelos: los pilotos, por ejemplo, no podían rellenar las hojas de carga necesarias para calcular el combustible para un vuelo. Los costes, solo en compensación por los vuelos cancelados, superarán los 100 millones de libras (114 millones de euros) y el valor de IAG en bolsa llegó a desplomarse más del 4% (casi 200 millones de euros). Un desastre empresarial y comercial.

Pero si tenemos en cuenta la creciente dependencia que tenemos todos respecto a las redes de comunicaciones e informáticas de grandes empresas para simplemente mantener nuestra vida cotidiana normal, la cosa toma un cariz más oscuro. Nuestra vida está repleta de gestos que nos ponen a merced de las redes de una gran compañía: desde usar el ascensor (eléctricas), a cruzar la calle (semáforos), usar el móvil (telefónicas), viajar en transporte público (trenes, metro, autobuses), hacer una operación bancaria o de tarjeta (bancos) y decenas de situaciones más que sólo son posibles si los sistemas de estas empresas funcionan, y nos dejan tirados y a veces inermes si no lo hacen.

Los incidentes de esta clase deberían ser inauditos, pero ocurren. Y en ocasiones la causa tiene que ver con una realidad empresarial actual: el recorte de costes de operación.

Apagar y encender

En el caso del apagón de British Airways el propio consejero delegado de la compañía, el bilbaíno Alex Cruz, anunció que el problema tuvo que ver con el sistema de seguridad instalado para garantizar que uno de los centros de operaciones informáticas de la compañía estuviese a salvo de apagones eléctricos.

Por causas que aún se desconocen, pero que al parecer tienen que ver con un error humano, según informa The Times, el sistema de alimentación ininterrumpida (UPS en sus siglas en inglés) quedó desconectado, lo que causó un apagón en el centro llamado Boadicea House, junto a la central de la compañía en el aeropuerto de Heathrow. Las compañías eléctricas que suministran a estos centros negaron haber tenido problema alguno ese día.

Este apagón en sí mismo no provocó el desastre, que se precipitó cuando para devolver la corriente al sistema se empleó un procedimiento irregular (“de modo incontrolado”, según la investigación) causando un pico de tensión, precisamente una de las amenazas de las que protege un UPS.

El pico quemó físicamente equipos informáticos en Boadicea House como routers y servidores, lo que causó daños a los sistemas internos de comunicación de la compañía que a su vez se propagaron a otro centro llamado Cranebank situado a menos de un kilómetro y que según algunas fuentes dependía del mismo sistema APS. Por esto o porque el sistema de Cranebank careciera de suficiente capacidad para actuar como alternativo el conjunto dejó de funcionar causando todo tipo de errores a lo largo de las redes de British Airways.

Pronto, especialistas en el área de la continuidad de servicio informática empezaron a especular con la causa original del incidente. Un UPS bien diseñado para una sala de servidores recibe electricidad de dos compañías eléctricas distintas y dispone de generadores diésel que arrancan automáticamente en el momento en el que se interrumpe el suministro de ambas redes; para cubrir el intervalo se dispone bien de baterías, bien de un volante de inercia para alimentar a las máquinas durante algunos minutos hasta que los generadores estén a pleno rendimiento. En el centro del UPS hay un conmutador automático (ATS en sus siglas en inglés) que gestiona el flujo de corriente. Según algunos rumores un contratista efectuaba labores de mantenimiento en el conmutador, lo que pudo poner en marcha la cadena de errores del incidente.

Aunque hicieron falta dos problemas más: la recuperación de la electricidad de modo incontrolado y la ausencia de un sistema informático alternativo que pudiera encargarse de la tarea.

Como ocurre en la propia aviación los incidentes en un sistema informático adecuadamente diseñado solo son posibles por una cadena de errores diferentes que coinciden en el tiempo. Lo que resulta poco tranquilizador es que este tipo de incidentes pasan demasiado a menudo, incluso en la propia British Airways, que el 5 de septiembre de 2016 ya tuvo problemas informáticos que provocaron retrasos y cancelaciones. El 8 de agosto de 2016 un problema con un sistema APS en su centro de Atlanta provocó la caída de la red de Delta Airlines que acabó teniendo que cancelar casi 2.000 vuelos. En este caso la causa inicial fue el incendio de un ATS seguida del fracaso del UPS y la ausencia de sistema secundario.

Como explica James Hamilton, especialista en sistemas redundantes, el mismo tipo de fallo provocó un apagón de 34 minutos en las luces del estadio Superdome de Nueva Orleans durante la Super Bowl de 2013, uno de los eventos televisados con más espectadores del planeta. En 2015 un error de un técnico provocó un apagón en un centro de British Telecom en Holanda que causó problemas al tráfico ferroviario, ya que albergaba servidores de la compañía ProRail. Y no son los únicos: estas cosas pasan, y los UPS son a menudo responsables.

La investigación del problema de British Airways va camino de echar la culpa a algún miembro del equipo informático, como a menudo se culpa a los pilotos de los accidentes aéreos incluso antes de que se conozca la cadena causal completa. Y por supuesto es posible que alguien cometiera un error, como realizar labores de mantenimiento o instalar parches de software sin seguir el adecuado protocolo, aunque es raro que estas tareas se lleven a cabo un sábado siendo el lunes fiesta (los técnicos prefieren instalar cuando todo el mundo está en su puesto de trabajo).

Los recortes de costes tienen mucho que ver

Pero también es cierto que los recortes de costes tienen mucho que ver: un generador diésel para uno de estos centros puede costar más de medio millón de euros, y hacen falta bancos de 4 (y otros 4 alternativos) para garantizar la potencia, además de mantenerlos, renovar el gasoil, etc. Los centros alternativos a veces no tienen suficiente capacidad porque se emplean para desarrollo o no cuentan con copias de seguridad lo bastante recientes para ahorrar en equipos y operaciones.

British Airways subcontrató el mantenimiento de su sistema informático a dos consultoras que usan técnicos remotos desde la India, lo cual puede suponer un problema cuando la avería es de hardware. Los recortes desde luego no ayudan a recortar las cadenas de error. Y en nuestra sociedad, cada vez más dependiente del adecuado funcionamiento de sus redes informáticas, esto es un problema creciente que de vez en cuando acaba por afectarnos, a todos.

Etiquetas