Ciberseguridad

Amazon atribuye la caída de sus servicios a un error humano

El pasado martes, un fallo de un empleado al ejecutar un comando colapsó los servicios del proveedor durante horas dejando inactivas cientos de miles de páginas web y aplicaciones.

JeffBezos_Amazon

Un error humano ha sido la causa de la interrupción de los servicios de AWS (Amazon Web Services) que colapsó durante 11 horas multitud de sitios webs, algunos tan populares como Netflix, Reddit y Associated Press. Así lo ha anunciado el proveedor de cloud tras una investigación interna. El pasado martes, la compañía informó que estaba teniendo problemas con el servicio S3 que proporciona alojamiento a miles de páginas y aplicaciones y que está ubicado en la región de Virginia del Norte.

Y todo se debió a un fallo tipográfico. Según la propia organización, un empleado ejecutó un comando que debía eliminar un pequeño número de servidores de uno de los subsistemas S3 que utiliza el proceso de facturación del servicio como respuesta a unos parámetros que funcionaban más lento de lo debido. Pero el trabajador introdujo mal un valor provocando la caída del sistema durante horas.

Amazon no había reiniciado completamente estos sistemas en varios años en sus regiones más grandes y, como consecuencia, el reinicio de estos subsistemas tardó más de lo esperado sumando así más tiempo a la duración de la interrupción.

“Si bien estamos orgullosos de nuestro largo historial de disponibilidad con Amazon S3, sabemos lo crítico que es este servicio para nuestros clientes, las aplicaciones, los usuarios finales y sus negocios”, ha señalado la empresa en un comunicado. “Haremos todo lo posible para aprender de este incidente y usarlo para mejorar más aún nuestra disponibilidad”.

En respuesta a este incidente, la firma ya ha empezado implementar varios cambios en sus herramientas y procesos internos. De hecho, la plataforma que provocó el error ya ha sido tocada con el fin de que no pueda provocar una caída completa del servicio.  Además, también ha cambiado su consola de administración Service Health Dashboard para que se ejecute en varias regiones.

 

Un error mediático

Como era de esperar, la caída de los servicios ha tenido una repercusión mundial. Cometer errores es humano pero trabajar en AWS significa exponerte al juicio del sector cuando surgen este tipo de incidentes. Zeus Kerravala, analista de ZK Research, ha afirmado que no es de extrañar que una cuestión tan importante sea causada por un error humano. “El 37% de los cortes de TI provienen de fallos humanos. Esto demuestra que a pesar de tantos avances en la tecnología, todavía estamos obligados a realizar muchos procesos manuales. Esto es un ejemplo de lo que podría ayudar la automatización”.

“Es increíble pensar que un error cometido por una persona en un comando pueda acabar con millones de usuarios”, ha dicho Patrick Moorhead, analista de Moor Insights & Strategy. “La gente debería esperar más de AWS. Este incidente hará que las empresas piensen dos veces antes de trasladar ciertas cargas de trabajo y aplicaciones a la nube pública, y empezarán a buscar a la nube privada”.

 



TE PUEDE INTERESAR...

Accede a la cobertura de nuestros encuentros
 
Lee aquí nuestra revista digital de canal

DealerWorld Digital

 

Forma parte de nuestra comunidad
 
¿Interesado en nuestros foros? 

 

Whitepaper

Documento Pure Storage y Kyndryl INFRAESTRUCTURAS