🕓 Inicio del incidente: 16:35 CET 🛠️ Medida correctiva aplicada: 16:45 CET ✅ Servicio estabilizado: 16:50 CET
A las 16:35 CET se registró un incidente en RLP PROD debido a un volumen de tráfico superior al que la configuración actual del sistema podía procesar eficientemente. Esto provocó tiempos de respuesta elevados y desconexiones intermitentes para algunos usuarios.
Causa raíz: Incremento súbito de solicitudes simultáneas, posiblemente relacionado con el periodo de exámenes finales. El comportamiento fue consistente con un patrón de crecimiento progresivo en los días previos.
Acción correctiva: A las 16:45 CET se procedió a escalar la capacidad del servicio RDS de la plataforma, migrando la instancia de base de datos de db.m5.8xlarge a db.m5.12xlarge. Este cambio implicó una ventana de inactividad estimada y controlada de aproximadamente 10 minutos.
Estado actual: Desde las 16:50 CET, la plataforma ha operado con normalidad y cuenta con capacidad adicional para absorber picos de tráfico similares en adelante.
🕓 Incident start: 4:35 PM CET 🛠️ Corrective action applied: 4:45 PM CET ✅ Service stabilized: 4:50 PM CET
Description: At 4:35 PM CET, RLP PROD experienced an incident due to traffic levels exceeding the platform’s current capacity. This resulted in elevated response times and intermittent disconnections for some users.
Root cause: A sudden spike in concurrent requests, likely related to the final exam period. Traffic analysis showed a gradual increase in usage in the days leading up to the incident.
Corrective action: At 4:45 PM CET, the platform’s RDS instance was scaled up from db.m5.8xlarge to db.m5.12xlarge. The change involved a controlled downtime window of approximately 10 minutes.
Current status: As of 4:50 PM CET, the platform has returned to normal operation and is now equipped to handle similar traffic surges going forward.