[Incidente Resuelto] Alta carga de tráfico en RLP - High Traffic Load for RLP

Incident Report for Richmondlp

Resolved

🕓 Inicio del incidente: 16:35 CET
🛠️ Medida correctiva aplicada: 16:45 CET
✅ Servicio estabilizado: 16:50 CET

A las 16:35 CET se registró un incidente en RLP PROD debido a un volumen de tráfico superior al que la configuración actual del sistema podía procesar eficientemente. Esto provocó tiempos de respuesta elevados y desconexiones intermitentes para algunos usuarios.

Causa raíz:
Incremento súbito de solicitudes simultáneas, posiblemente relacionado con el periodo de exámenes finales. El comportamiento fue consistente con un patrón de crecimiento progresivo en los días previos.

Acción correctiva:
A las 16:45 CET se procedió a escalar la capacidad del servicio RDS de la plataforma, migrando la instancia de base de datos de db.m5.8xlarge a db.m5.12xlarge. Este cambio implicó una ventana de inactividad estimada y controlada de aproximadamente 10 minutos.

Estado actual:
Desde las 16:50 CET, la plataforma ha operado con normalidad y cuenta con capacidad adicional para absorber picos de tráfico similares en adelante.

🕓 Incident start: 4:35 PM CET
🛠️ Corrective action applied: 4:45 PM CET
✅ Service stabilized: 4:50 PM CET

Description:
At 4:35 PM CET, RLP PROD experienced an incident due to traffic levels exceeding the platform’s current capacity. This resulted in elevated response times and intermittent disconnections for some users.

Root cause:
A sudden spike in concurrent requests, likely related to the final exam period. Traffic analysis showed a gradual increase in usage in the days leading up to the incident.

Corrective action:
At 4:45 PM CET, the platform’s RDS instance was scaled up from db.m5.8xlarge to db.m5.12xlarge. The change involved a controlled downtime window of approximately 10 minutes.

Current status:
As of 4:50 PM CET, the platform has returned to normal operation and is now equipped to handle similar traffic surges going forward.

Posted May 28, 2025 - 14:30 UTC