Checklist incident
Cette page sert de premier réflexe quand une anomalie apparaît sur Rilindra.
Elle ne remplace pas les runbooks détaillés. Elle aide à trier vite sans casser un service sain.
Règle de départ
Observer avant d'agir.
Ne pas redémarrer, migrer ou modifier une variable avant d'avoir identifié le service touché.
Identifier le périmètre
| Question | Action |
|---|---|
| Le problème touche Staff Manager ? | Vérifier staff.rilindra.fr, logs app staff, DB prod |
| Le problème touche Commu ? | Vérifier commu.rilindra.fr, auth Discord, résultats quiz |
| Le problème touche le bot ? | Vérifier présence Discord, logs bot, commandes récentes |
| Le problème touche les images ? | Vérifier MinIO, CDN cdn.redious.fr, routes images |
| Le problème touche la DB ? | Vérifier logs PostgreSQL, migrations récentes, connexions |
| Le problème touche le DNS ? | Vérifier Cloudflare, proxy, CNAME/A records |
Ordre de vérification
- Uptime Kuma :
https://status.redious.fr - Coolify : état de l'application concernée
- Logs récents application
- Logs récents DB si l'application lit ou écrit
- Dernier commit déployé
- Dernière modification Infisical ou Coolify
- Dernière action Discord ou bot
Signaux de gravité
| Niveau | Signaux |
|---|---|
| P0 | Auth prod cassée, DB prod inaccessible, bot prod offline, pertes d'écriture |
| P1 | Page critique 500, commandes bot critiques HS, backups absents |
| P2 | UI partielle cassée, erreurs ponctuelles, images expirées |
| P3 | Texte, design, warning cosmétique, dette de logs |
Ce qu'il ne faut pas faire en premier
- redémarrer tous les conteneurs ;
- modifier les variables Infisical ;
- relancer une migration ;
- restaurer un backup ;
- supprimer une donnée ;
- changer Cloudflare sans savoir quel domaine est touché.
Vérifications minimales Staff Manager
| Vérification | Succès attendu |
|---|---|
https://staff.rilindra.fr/tasks | Redirection login ou page chargée, pas de 500 |
Coolify staff-rilindra-prod | running:healthy |
| Logs staff | Pas de Unhandled, panic, ERROR récurrent |
| Logs DB prod | Pas d'erreur auth.*, migration ou connexion |
| DB migrations | _schema_migrations cohérent |
Vérifications minimales bot
| Vérification | Succès attendu |
|---|---|
| Présence Discord | Bot visible en ligne |
| Coolify bot prod | running:healthy |
| Logs bot | Connexion Discord OK, DB OK |
| Commande simple | Réponse attendue sans erreur |
| Notifications | Pas de double message ni mauvais salon |
Vérifications minimales Commu
| Vérification | Succès attendu |
|---|---|
https://commu.rilindra.fr | Page chargée |
| Auth Discord | Login possible |
| Quiz | Réponse et score persistés |
| Leaderboard | Lecture OK |
| Rewards | Transaction attendue en base |
Escalade
Préparer avant de demander de l'aide :
- service touché ;
- heure exacte ;
- URL ou commande ;
- action utilisateur ;
- dernier déploiement ;
- extrait court des logs ;
- impact joueurs ou staff ;
- action déjà tentée.
Après correction
Toujours vérifier :
- service healthy ;
- logs propres pendant 10 à 15 minutes ;
- parcours métier minimal ;
- notification Discord si une maintenance avait été annoncée ;
- doc ou runbook mis à jour si la procédure a changé.