Errores tras despliegue de la versión 6.8.0
Incident Report for Richmondlp
Postmortem

Nos disculpamos con toda la comunidad por los incidentes presentados.

La caída se debió a una configuración incorrecta de Puma. Se tomaron todas las medidas necesarias y los errores de configuración fueron corregidos en el siguiente despliegue.

Tiempo de inicio a las 12 35 UTC

Tiempo de finalización a las 12 53 UTC

Posted Aug 20, 2024 - 16:51 UTC

Resolved
El despliegue de la release 6.8.0 de RLP a producción se completó a las 09:09 UTC y se verificó su correcto funcionamiento.

No obstante, alrededor de las 12:20 UTC diferentes instancias en ASG han sido marcadas como inestables y se han reiniciado, provocando tiempos de respuesta elevados y micro-cortes. Ante ello, hemos revertido a la versión anterior de RLP. Esta reversión ha terminado a las 13:11 UTC y la plataforma se mantiene estable desde entonces.

Seguimos monitoreando el comportamiento de la misma e investigando los posibles motivos de este escenario. A destacar, este es el primer despliegue a RLP PROD tras la habilitación de MultiA-Z en el mismo, lo cual puede haber afectado. Dicho esto, y aún con poca información, achacamos el comportamiento a una ventana de mejora en optimización de algunas de las funciones incluidas en la nueva versión, ya que en pruebas internas el resultado ha sido satisfactorio, pero los problemas han surgido coincidiendo con la entrada de alumnos de las instituciones más tempranas.

Por supuesto, mantendremos la versión anterior en producción hasta asegurarnos de que hemos identificado la causa concreta en la versión nueva y hayamos introducido el cambio necesario para evitar que se repita.



The deployment of RLP release 6.8.0 to production was completed at 09:09 UTC and was verified to be working correctly.

However, around 12:20 UTC different instances in ASG have been marked as unstable and restarted, causing high response times and micro-cuts. In view of this, we have reverted to the previous version of RLP. This revert has ended at 13:11 UTC and the platform has remained stable since then.

We continue to monitor its behavior and investigate the possible reasons for this scenario. To note, this is the first deployment to RLP PROD after enabling MultiA-Z on it, which may have affected it. That said, and still with little information, we attribute the behavior to a window of improvement in optimization of some of the functions included in the new version, since in internal tests the result has been satisfactory, but the problems have arisen coinciding with the entry of students from the earliest institutions.

Of course, we will keep the previous version in production until we are sure that we have identified the specific cause in the new version and have introduced the necessary change to avoid a recurrence.
Posted Aug 08, 2024 - 18:30 UTC