Probar gratis
7 min lectura Guide 107 of 877

Configurando Rotaciones On-Call Efectivas

Las rotaciones on-call distribuyen la responsabilidad de responder a incidentes de producción entre miembros del equipo, asegurando que sistemas sean monitoreados las 24 horas mientras previenen que una sola persona cargue con toda la carga. Las features de gestión de equipo de GitScrum, documentación NoteVault, y asignación de tareas ayudan a equipos a organizar rotaciones justas, mantener runbooks accesibles, trackear carga de incidentes, y mejorar continuamente procesos on-call basados en experiencia real.

Diseño de Rotación

Patrones de Schedule

OPCIONES SCHEDULE ON-CALL:
┌─────────────────────────────────────────────────────────────┐
│ PATRONES DE ROTACIÓN                                        │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│ ROTACIÓN SEMANAL:                                           │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ Semana 1: @maria (primario), @carlos (secundario)       ││
│ │ Semana 2: @carlos (primario), @ana (secundario)         ││
│ │ Semana 3: @ana (primario), @pedro (secundario)          ││
│ │ Semana 4: @pedro (primario), @maria (secundario)        ││
│ │                                                         ││
│ │ Handoff: Lunes 9am                                      ││
│ │                                                         ││
│ │ Pros: Suficiente tiempo para contexto, menos handoffs   ││
│ │ Cons: Semana completa puede ser agotador si ocupado     ││
│ │                                                         ││
│ │ Mejor para: Equipos pequeños, bajo volumen incidentes   ││
│ └─────────────────────────────────────────────────────────┘│
│                                                             │
│ ROTACIÓN DIARIA:                                            │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ Lun: @maria → Mar: @carlos → Mie: @ana →                ││
│ │ Jue: @pedro → Vie: @maria → Finde: @carlos              ││
│ │                                                         ││
│ │ Handoff: 9am cada día                                   ││
│ │                                                         ││
│ │ Pros: Menor carga, más balanceado                       ││
│ │ Cons: Muchos handoffs, cambio contexto                  ││
│ │                                                         ││
│ │ Mejor para: Ambientes con muchos incidentes             ││
│ └─────────────────────────────────────────────────────────┘│
│                                                             │
│ FOLLOW-THE-SUN:                                             │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ Américas (9am-5pm EST): @maria, @carlos                 ││
│ │ Europa (9am-5pm CET): @ana, @pedro                      ││
│ │ Asia (9am-5pm JST): @yuki, @lei                         ││
│ │                                                         ││
│ │ Handoff: Al cambio de región                            ││
│ │                                                         ││
│ │ Pros: Sin pages nocturnos, solo horas trabajo           ││
│ │ Cons: Requiere equipo distribuido                       ││
│ │                                                         ││
│ │ Mejor para: Equipos globales                            ││
│ └─────────────────────────────────────────────────────────┘│
│                                                             │
└─────────────────────────────────────────────────────────────┘

Consideraciones Equipo

DISEÑO ROTACIÓN JUSTA:
┌─────────────────────────────────────────────────────────────┐
│ CONSTRUYENDO SCHEDULES SOSTENIBLES                          │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│ TAMAÑO MÍNIMO EQUIPO:                                       │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ Para cobertura 24/7 sin burnout:                        ││
│ │                                                         ││
│ │ • 4 personas mínimo: 1 semana por mes cada uno          ││
│ │ • 6 personas mejor: ~6 días por mes cada uno            ││
│ │ • 8 personas ideal: 1 semana cada 2 meses               ││
│ │                                                         ││
│ │ Regla: Nadie on-call > 25% del tiempo                   ││
│ │                                                         ││
│ │ Si equipo muy pequeño:                                  ││
│ │ • Compartir rotación entre equipos                      ││
│ │ • Considerar on-call como overtime pagado               ││
│ │ • Invertir en reducir incidentes                        ││
│ └─────────────────────────────────────────────────────────┘│
│                                                             │
│ DISTRIBUCIÓN EXPERIENCIA:                                   │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ Pareando junior + senior:                               ││
│ │                                                         ││
│ │ Sem 1: @senior-maria (primario), @junior-tom (shadow)   ││
│ │ Sem 2: @junior-tom (primario), @senior-carlos (backup)  ││
│ │                                                         ││
│ │ Camino progresión:                                      ││
│ │ 1. Shadow (observar, aprender)                          ││
│ │ 2. Primario con backup senior                           ││
│ │ 3. Primario completo                                    ││
│ │                                                         ││
│ │ Nunca: Junior solo sin path escalación                  ││
│ └─────────────────────────────────────────────────────────┘│
│                                                             │
│ ACOMODACIONES:                                              │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ Soportar diferentes necesidades:                        ││
│ │                                                         ││
│ │ • Padres con niños pequeños: Evitar turnos nocturnos    ││
│ │ • Restricciones timezone: Matchear horas trabajo        ││
│ │ • Vacaciones/feriados: Planear swaps por adelantado     ││
│ │ • Salud/mental: Opt-out sin estigma                     ││
│ │                                                         ││
│ │ Trackear en GitScrum:                                   ││
│ │ • Notar restricciones disponibilidad en settings        ││
│ │ • Usar calendario equipo para visibilidad               ││
│ └─────────────────────────────────────────────────────────┘│
│                                                             │
└─────────────────────────────────────────────────────────────┘

Tracking en GitScrum

Gestión Schedule

ORGANIZANDO ON-CALL EN GITSCRUM:
┌─────────────────────────────────────────────────────────────┐
│ TRACKEANDO ROTACIONES                                       │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│ VISIBILIDAD ON-CALL ACTUAL:                                 │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ NoteVault: "Schedule On-Call"                           ││
│ │                                                         ││
│ │ # On-Call Actual                                        ││
│ │                                                         ││
│ │ **Esta Semana (Dic 16-22):**                            ││
│ │ - Primario: @maria                                      ││
│ │ - Secundario: @carlos                                   ││
│ │                                                         ││
│ │ **Próxima Semana (Dic 23-29):**                         ││
│ │ - Primario: @carlos                                     ││
│ │ - Secundario: @ana                                      ││
│ │                                                         ││
│ │ ## Rotación Completa                                    ││
│ │ | Semana      | Primario | Secundario |                 ││
│ │ |-------------|----------|------------|                 ││
│ │ | Dic 16-22   | Maria    | Carlos     |                 ││
│ │ | Dic 23-29   | Carlos   | Ana        |                 ││
│ │ | Dic 30-Ene 5| Ana      | Pedro      |                 ││
│ │                                                         ││
│ │ Fijar esta nota al proyecto para acceso fácil           ││
│ └─────────────────────────────────────────────────────────┘│
│                                                             │
│ CHECKLIST HANDOFF TURNO:                                    │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ Crear tarea recurrente: "Handoff On-Call"               ││
│ │ Cada lunes a las 9am                                    ││
│ │                                                         ││
│ │ Checklist:                                              ││
│ │ ☐ Saliente: Postear resumen handoff en Discussions      ││
│ │ ☐ Saliente: Notar issues en progreso                    ││
│ │ ☐ Entrante: Confirmar que pager/teléfono funciona       ││
│ │ ☐ Entrante: Revisar incidentes recientes                ││
│ │ ☐ Entrante: Verificar ventanas mantenimiento programado ││
│ │ ☐ Ambos: Confirmar handoff en canal #on-call            ││
│ └─────────────────────────────────────────────────────────┘│
│                                                             │
└─────────────────────────────────────────────────────────────┘

Gestión Runbooks

Estructura Documentación

ORGANIZACIÓN RUNBOOKS:
┌─────────────────────────────────────────────────────────────┐
│ RUNBOOKS ON-CALL EN NOTEVAULT                               │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│ ESTRUCTURA CARPETAS:                                        │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ Runbooks/                                               ││
│ │ ├── Empezando.md                                        ││
│ │ ├── Referencia Alertas/                                 ││
│ │ │   ├── Alertas Base Datos.md                           ││
│ │ │   ├── Alertas API.md                                  ││
│ │ │   ├── Alertas Pagos.md                                ││
│ │ │   └── Alertas Infraestructura.md                      ││
│ │ ├── Procedimientos Comunes/                             ││
│ │ │   ├── Reiniciar Servicios.md                          ││
│ │ │   ├── Failover Base Datos.md                          ││
│ │ │   ├── Rollback Deployment.md                          ││
│ │ │   └── Guía Escalación.md                              ││
│ │ └── Post-Incidente/                                     ││
│ │     ├── Template.md                                     ││
│ │     └── [reportes incidentes...]                        ││
│ └─────────────────────────────────────────────────────────┘│
│                                                             │
│ TEMPLATE RUNBOOK:                                           │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ # Runbook [Nombre Alerta]                               ││
│ │                                                         ││
│ │ ## ¿Qué es esta alerta?                                 ││
│ │ Explicación breve de qué la disparó.                    ││
│ │                                                         ││
│ │ ## ¿Quién es paginado?                                  ││
│ │ On-call primario, escalar a [equipo] si no resuelto.    ││
│ │                                                         ││
│ │ ## Severidad                                            ││
│ │ P2 - Servicio degradado pero funcional                  ││
│ │                                                         ││
│ │ ## Verificación rápida                                  ││
│ │ 1. ¿Es falso positivo? Verificar [dashboard]            ││
│ │ 2. ¿Deploy en progreso? Verificar [estado deploy]       ││
│ │                                                         ││
│ │ ## Pasos resolución                                     ││
│ │ 1. Paso uno con ejemplos comandos                       ││
│ │ 2. Paso dos con qué verificar                           ││
│ │ 3. Si X, hacer Y. Si Z, escalar.                        ││
│ │                                                         ││
│ │ *Última actualización: Dic 16, 2024 por @maria*         ││
│ └─────────────────────────────────────────────────────────┘│
│                                                             │
└─────────────────────────────────────────────────────────────┘

Soluciones Relacionadas