RDS overload due to concurrent login and execution of its cache expiration.
Incident Report for Richmondlp
Resolved
Fecha y Hora del Incidente:
15:45 UTC

Descripción del Incidente:
Se ha detectado una sobrecarga en la base de datos relacional (RDS) debido a un login concurrente de 15,000 estudiantes de Colombia (British Council) junto con la ejecución de un proceso de expiración de caché. Esta situación provocó un downtime de 2 minutos, seguido de un período de lentitud de aproximadamente 15 minutos mientras se procesaban todas las peticiones concurrentes.

Impacto:

Downtime: 2 minutos
Lentitud de la plataforma: 15 minutos adicionales hasta resolver todas las solicitudes
Causa:
Acceso concurrente masivo en combinación con un proceso de expiración de caché. Estos picos de carga recurrentes se presentan los jueves y están causando tiempos de respuesta elevados.

Acciones Tomadas:

Tras los 2 minutos de downtime, la plataforma se mantuvo estable pero con tiempos de respuesta lentos durante 15 minutos hasta que se resolvieron todas las solicitudes.
Se ha verificado que el RDS está suficientemente dimensionado para el resto de la semana, siendo este tipo de acceso concurrente en jueves el principal causante de los picos.

Medidas Correctivas:

El equipo de desarrollo está trabajando en una refactorización del proceso de expiración de caché para evitar estos problemas en el futuro. Se esperan resultados de esta optimización durante la próxima semana.
Posted Oct 17, 2024 - 21:30 UTC