Caída de AWS: Amazon trabaja en restaurar servicios afectados

Amazon Web Services, líder en el mercado de infraestructura en la nube, informó el lunes sobre una gran interrupción que afectó a numerosos sitios web muy conocidos. Muchos de ellos ya volvieron a estar en línea.

Puede abrir la tabla de contenidos show

La interrupción se reportó por primera vez a las 12:11 a. m. (hora del Pacífico) en la región principal US-East-1 de AWS, ubicada en el norte de Virginia. Un aviso en la página de estado de AWS indicó que estaba experimentando problemas de DNS con DynamoDB, su servicio de base de datos que sustenta muchas otras aplicaciones de AWS.

DNS, o Sistema de Nombres de Dominio, traduce los nombres de los sitios web en direcciones IP para que los navegadores y otras aplicaciones puedan cargarlos.

AWS citó un “problema operativo” que afectaba a “múltiples servicios” y dijo que estaba “trabajando en múltiples caminos paralelos para acelerar la recuperación”, según una actualización a las 2:01 a. m. (hora del Pacífico). Más de 70 de sus propios servicios se vieron afectados.

Poco después, AWS informó que estaba observando “signos significativos de recuperación”.

A las 3:35 a. m. (hora del Pacífico), la compañía afirmó que el problema había sido “totalmente mitigado”, y agregó que la mayoría de las operaciones de los servicios “ya están funcionando con normalidad”.

“Algunas solicitudes pueden ser limitadas mientras trabajamos hacia la resolución completa”, señaló AWS, indicando que algunos servicios aún estaban resolviendo retrasos acumulados.

AWS es el principal proveedor de tecnología de infraestructura en la nube, representando alrededor de un tercio del mercado, por delante de Microsoft y Google, según Synergy Research Group. Millones de empresas y organizaciones dependen de AWS para servicios de computación en la nube, como servidores y almacenamiento.

Grandes compañías afectadas

El sitio web Downdetector informó que los usuarios indicaron problemas en sitios como Amazon, Disney+, Lyft, la aplicación de McDonald’s, The New York Times, Reddit, Ring, Robinhood, Snapchat, T-Mobile, United Airlines, Venmo y Verizon.

Según Downdetector, los sitios web del gobierno británico Gov.uk y HM Revenue and Customs también estaban experimentando fallas.

Un portavoz del gobierno dijo a CNBC: “Somos conscientes de un incidente que afecta a Amazon Web Services y a varios servicios en línea que dependen de su infraestructura. A través de nuestros mecanismos establecidos de respuesta a incidentes, estamos en contacto con la empresa, que está trabajando para restaurar los servicios lo antes posible.”

El grupo bancario Lloyds Banking Group confirmó que algunos de sus servicios se vieron afectados y pidió a los clientes “que tengan paciencia” mientras trabajaban para restaurarlos. Unos 20 minutos más tarde, añadió que los servicios estaban volviendo a la normalidad.

Reddit también explicó que “estamos trabajando para restaurar Reddit al 100 % mientras hablamos”, dijo un portavoz a CNBC.

Algunos clientes de United y Delta Air Lines informaron en redes sociales que no podían encontrar sus reservas en línea, registrarse ni entregar equipaje.

Otros usuarios en redes sociales mencionaron interrupciones en juegos basados en la nube, incluidos Roblox y Fortnite, mientras que la plataforma de intercambio de criptomonedas Coinbase indicó que muchos usuarios no podían acceder al servicio debido a la interrupción.

La herramienta de diseño gráfico Canva declaró que estaba “experimentando un aumento significativo en las tasas de error, lo que afecta la funcionalidad de la plataforma. Hay un problema importante con nuestro proveedor de nube subyacente.”

La herramienta de búsqueda de inteligencia artificial generativa Perplexity también resultó afectada. “La causa raíz es un problema de AWS. Estamos trabajando para resolverlo”, dijo su CEO Aravind Srinivas en una publicación en X.

Software centralizado

No es la primera vez en la historia reciente que grandes compañías se ven afectadas por un problema técnico. En julio de 2024, una actualización defectuosa de software realizada por la firma de ciberseguridad Crowdstrike reveló la fragilidad de la infraestructura tecnológica global al hacer que los sistemas Microsoft Windows quedaran inutilizados, provocando el caos y paralizando miles de vuelos. También afectó a hospitales y bancos.

AWS ha sufrido otras interrupciones en los últimos años. Una caída en 2023 dejó muchos sitios web fuera de línea durante varias horas, mientras que una más grave en 2021 afectó a sitios y servicios en todo el mundo, incluyendo algunas operaciones de entrega de Amazon, que se detuvieron brevemente.

“No hay señales de que esta interrupción de AWS fuera causada por un ciberataque; parece un fallo técnico que afectó a uno de los principales centros de datos de Amazon”, dijo Rob Jardin, director digital de la empresa de ciberseguridad NymVPN, en un comunicado. “Estos problemas pueden ocurrir cuando los sistemas se sobrecargan o una parte clave de la red falla, y dado que tantos sitios web y aplicaciones dependen de AWS, el impacto se propaga rápidamente.”

De hecho, “DynamoDB no es un término que la mayoría de los consumidores conozca”, dijo Mike Chapple, profesor de TI en la Universidad de Notre Dame y ex científico informático de la Agencia de Seguridad Nacional, en un comunicado. Sin embargo, “es uno de los guardianes de registros de Internet moderno.”

“Aprenderemos más en las próximas horas y días, pero los primeros informes indican que no fue un problema con la base de datos en sí. Los datos parecen estar seguros. En cambio, algo falló en los registros que indican a otros sistemas dónde encontrar su información”, añadió.

“Este episodio sirve como recordatorio de cuán dependiente es el mundo de un puñado de grandes proveedores de servicios en la nube: Amazon, Microsoft y Google. Cuando uno de los principales proveedores de nube estornuda, Internet se resfría.”