What is Fundamentos de las Guardias?

Ejecuta rotaciones de guardia efectivas. Horarios justos, escalamiento claro y prácticas sostenibles.

What is Configuración de Rotación?

Ejecuta rotaciones de guardia efectivas. Horarios justos, escalamiento claro y prácticas sostenibles.

What is Preparación para Guardias?

Ejecuta rotaciones de guardia efectivas. Horarios justos, escalamiento claro y prácticas sostenibles.

Gestión de Guardias con GitScrum

Las guardias no deberían agotar a tu equipo. GitScrum ayuda a gestionar tareas de guardia, rastrear incidentes y asegurar una rotación justa de responsabilidades.

Fundamentos de las Guardias

Por Qué Existen las Guardias

PROPÓSITO Y OBJETIVOS DE LAS GUARDIAS:
┌─────────────────────────────────────────────────────────────┐
│                                                             │
│ PROPÓSITO:                                                  │
│ Asegurar que alguien esté siempre disponible para         │
│ responder a problemas de producción que afectan usuarios. │
│                                                             │
│ ─────────────────────────────────────────────────────────── │
│                                                             │
│ GUARDIA SALUDABLE:                                          │
│                                                             │
│ ✅ Rotación justa entre el equipo                         │
│ ✅ Expectativas claras y runbooks                         │
│ ✅ Compensación apropiada                                 │
│ ✅ Baja tasa de falsas alarmas                            │
│ ✅ Carga de trabajo sostenible                            │
│ ✅ Aprendizaje de incidentes                              │
│                                                             │
│ GUARDIA NO SALUDABLE:                                       │
│                                                             │
│ ❌ Siempre las mismas personas de guardia                 │
│ ❌ Falsas alarmas constantes (fatiga de alertas)          │
│ ❌ Sin documentación ni runbooks                          │
│ ❌ Se espera que arregles todo solo                       │
│ ❌ Sin compensación de tiempo                             │
│ ❌ Burnout y deserción                                    │
│                                                             │
│ PRINCIPIO DE GUARDIA:                                       │
│ Si lo construyes, lo operas                               │
│ El equipo es dueño de sus servicios de punta a punta     │
│ Crea responsabilidad y mejor diseño                       │
└─────────────────────────────────────────────────────────────┘

Configuración de Rotación

Construyendo el Horario

DISEÑO DE ROTACIÓN DE GUARDIA:
┌─────────────────────────────────────────────────────────────┐
│                                                             │
│ OPCIONES DE ROTACIÓN:                                       │
│                                                             │
│ ROTACIÓN SEMANAL:                                           │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ Sem 1: @alex (primario) / @maria (secundario)          ││
│ │ Sem 2: @maria (primario) / @jordan (secundario)        ││
│ │ Sem 3: @jordan (primario) / @chen (secundario)         ││
│ │ Sem 4: @chen (primario) / @alex (secundario)           ││
│ └─────────────────────────────────────────────────────────┘│
│                                                             │
│ Mejor para: Equipos más grandes, menor volumen de alertas │
│                                                             │
│ ROTACIÓN DIARIA:                                            │
│ Cada persona de guardia por 1-2 días                      │
│ Mejor para: Alto volumen de alertas, más personas         │
│                                                             │
│ FOLLOW-THE-SUN:                                             │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ 00:00-08:00 UTC: Equipo APAC                           ││
│ │ 08:00-16:00 UTC: Equipo EMEA                           ││
│ │ 16:00-00:00 UTC: Equipo Américas                       ││
│ └─────────────────────────────────────────────────────────┘│
│ Mejor para: Equipos globales, sin turnos nocturnos       │
│                                                             │
│ ─────────────────────────────────────────────────────────── │
│                                                             │
│ REGLAS DE EQUIDAD:                                          │
│                                                             │
│ • Rotar equitativamente (rastrear en hoja de cálculo)    │
│ • Sin turnos consecutivos sin consentimiento              │
│ • Guardia feriado/fin semana = consideración extra       │
│ • Permitir intercambios de turno                          │
│ • Nuevos miembros acompañan antes de ir solos            │
│ • Compensar apropiadamente                                │
└─────────────────────────────────────────────────────────────┘

Ruta de Escalamiento

ESTRUCTURA DE ESCALAMIENTO:
┌─────────────────────────────────────────────────────────────┐
│                                                             │
│ NIVEL 1: Guardia Primario                                  │
│ ↓ (si no hay respuesta en 15 min)                         │
│                                                             │
│ NIVEL 2: Guardia Secundario                                │
│ ↓ (si no hay respuesta en 15 min)                         │
│                                                             │
│ NIVEL 3: Líder de Equipo / Gerente                        │
│ ↓ (si SEV 1 o impacto en negocio)                         │
│                                                             │
│ NIVEL 4: VP Ingeniería / Ejecutivo                        │
│                                                             │
│ ─────────────────────────────────────────────────────────── │
│                                                             │
│ REGLAS DE ESCALAMIENTO:                                     │
│                                                             │
│ AUTO-ESCALAR CUANDO:                                        │
│ • Sin reconocimiento en 15 minutos                        │
│ • Duración del incidente > 30 minutos                     │
│ • SEV 1 (siempre notificar liderazgo)                     │
│ • Problema reportado por cliente                          │
│                                                             │
│ EL PRIMARIO DEBE ESCALAR CUANDO:                            │
│ • Fuera de su experiencia                                 │
│ • Necesita manos adicionales                              │
│ • El impacto está creciendo                               │
│ • No puede resolver solo                                  │
│                                                             │
│ NO HACER:                                                   │
│ • Dudar en escalar                                        │
│ • Tratar de ser un héroe                                  │
│ • Esperar demasiado                                       │
└─────────────────────────────────────────────────────────────┘

Preparación para Guardias

Runbooks

ESENCIALES DE RUNBOOKS:
┌─────────────────────────────────────────────────────────────┐
│                                                             │
│ CADA SERVICIO NECESITA RUNBOOKS:                            │
│                                                             │
│ PLANTILLA DE RUNBOOK:                                       │
│ ┌─────────────────────────────────────────────────────────┐│
│ │ Servicio: API de Pagos                                 ││
│ │ Dueño: Equipo de Pagos                                 ││
│ │ Guardia: payments-oncall@empresa.com                   ││
│ │                                                         ││
│ │ ═══════════════════════════════════════════════════════ ││
│ │                                                         ││
│ │ ALERTAS COMUNES:                                        ││
│ │                                                         ││
│ │ Alerta: payment-api-error-rate-high                    ││
│ │ ─────────────────────────────────────────              ││
│ │ Qué: Tasa de error > 5%                                ││
│ │ Por qué: Solicitudes de pago fallando                  ││
│ │                                                         ││
│ │ Pasos:                                                  ││
│ │ 1. Revisar dashboard: [enlace]                         ││
│ │ 2. Revisar deploys recientes: [enlace]                 ││
│ │ 3. Revisar downstream: Estado Stripe [enlace]          ││
│ │ 4. Revisar base de datos: pool de conexiones [enlace]  ││
│ │                                                         ││
│ │ Causas comunes:                                         ││
│ │ • Caída de Stripe → esperar o failover                 ││
│ │ • Base de datos llena → escalar o limpiar              ││
│ │ • Deploy malo → rollback                               ││
│ │                                                         ││
│ │ Rollback: kubectl rollout undo deploy/payment-api      ││
│ │                                                         ││
│ │ Escalar si: No se identifica causa en 30 min          ││
│ └─────────────────────────────────────────────────────────┘│
│                                                             │
│ MANTENER RUNBOOKS:                                          │
│ • Actualizados (revisar trimestralmente)                  │
│ • Accesibles (no detrás de VPN)                           │
│ • Accionables (pasos, no solo info)                       │
│ • Enlazados en alertas                                    │
└─────────────────────────────────────────────────────────────┘

Kit de Herramientas de Guardia

EL INGENIERO DE GUARDIA NECESITA:
┌─────────────────────────────────────────────────────────────┐
│                                                             │
│ ACCESO (Verificado antes de que comience la rotación):     │
│                                                             │
│ ☐ Dashboards de monitoreo (Datadog, Grafana, etc.)       │
│ ☐ Sistema de alertas (PagerDuty, Opsgenie, etc.)         │
│ ☐ Consola cloud (AWS, GCP, Azure)                        │
│ ☐ Herramientas de despliegue (kubectl, CI/CD)            │
│ ☐ Acceso a base de datos (lectura como mínimo)           │
│ ☐ Agregación de logs (Splunk, ELK, etc.)                 │
│ ☐ Comunicación (Slack, canal de incidentes)              │
│ ☐ Página de estado (para publicar actualizaciones)       │
│ ☐ Runbooks (wiki, Notion, etc.)                          │
│                                                             │
│ DOCUMENTACIÓN:                                              │
│                                                             │
│ ☐ Runbooks para todos los servicios                      │
│ ☐ Diagramas de arquitectura                              │
│ ☐ Contactos de escalamiento                              │
│ ☐ Contactos de soporte de proveedores                    │
│ ☐ Post-mortems de incidentes anteriores                  │
│                                                             │
│ HERRAMIENTAS:                                               │
│                                                             │
│ ☐ Laptop con VPN                                         │
│ ☐ Móvil con app de alertas                               │
│ ☐ Cargador y batería de respaldo                         │
│ ☐ Internet confiable (o hotspot de respaldo)             │
│                                                             │
│ ANTES DEL TURNO:                                            │
│ • Verificar acceso a todas las herramientas               │
│ • Revisar incidentes pendientes                           │
│ • Revisar cambios/deploys recientes                       │
│ • Confirmar contactos de escalamiento                     │
└─────────────────────────────────────────────────────────────┘

Planificación de Sprint con Guardia

Ajuste de Capacidad

CAPACIDAD DE GUARDIA EN GITSCRUM:
┌─────────────────────────────────────────────────────────────┐
│                                                             │
│ CONSIDERACIÓN EN PLANIFICACIÓN DE SPRINT:                   │
│                                                             │
│ CAPACIDAD NORMAL: 28 puntos                                │
│                                                             │
│ AJUSTES DE GUARDIA:                                         │
│                                                             │
│ Semana completa de guardia:                               │
│ • -25% a -50% capacidad según volumen de alertas         │
│ • @jordan: 28 pts → 14-21 pts                            │
│                                                             │
│ Media semana de guardia:                                   │
│ • -10% a -25% capacidad                                   │
│ • @alex: 28 pts → 21-25 pts                              │
│                                                             │
│ ─────────────────────────────────────────────────────────── │
│                                                             │
│ VISTA DEL SPRINT:                                           │
│                                                             │
│ @alex    [██████████████████████░░░] 24 pts (4 pts guardia)│
│ @maria   [████████████████████████░] 28 pts                │
│ @jordan  [██████████████░░░░░░░░░░░] 18 pts (10 pts guard.)│
│ @chen    [████████████████████████░] 28 pts                │
│                                                             │
│ Total: 98 pts (vs 112 estándar)                           │
│                                                             │
│ TAREAS DE GUARDIA:                                          │
│ • Columna o etiqueta separada                             │
│ • No contar contra velocity                               │
│ • Rastrear para visibilidad de carga                      │
│                                                             │
│ PRESUPUESTO DE GUARDIA DEL SPRINT:                          │
│ Reservar 10% de capacidad para incidentes inesperados    │
│ Si no se usa, traer trabajo adicional                     │
└─────────────────────────────────────────────────────────────┘

Traspaso de Guardia

PROCESO DE TRASPASO DE ROTACIÓN:
┌─────────────────────────────────────────────────────────────┐
│                                                             │
│ ANTES DE QUE TERMINE EL TURNO:                              │
│                                                             │
│ EL GUARDIA SALIENTE PROPORCIONA:                            │
│                                                             │
│ 1. PROBLEMAS ACTIVOS                                       │
│    • Incidentes abiertos                                  │
│    • Problemas en curso                                   │
│    • Cosas a vigilar                                      │
│                                                             │
│ 2. CAMBIOS RECIENTES                                        │
│    • Deploys de esta semana                               │
│    • Cambios de configuración                             │
│    • Nuevas funcionalidades lanzadas                      │
│                                                             │
│ 3. RIESGOS PRÓXIMOS                                         │
│    • Mantenimiento planificado                            │
│    • Eventos grandes de clientes                          │
│    • Deploys riesgosos conocidos                          │
│                                                             │
│ 4. APRENDIZAJES                                             │
│    • Nuevas entradas de runbook                           │
│    • Problemas descubiertos                               │
│    • Tips útiles                                          │
│                                                             │
│ ─────────────────────────────────────────────────────────── │
│                                                             │
│ REUNIÓN DE TRASPASO (15 min):                               │
│                                                             │
│ • Llamada sincrónica o traspaso escrito                   │
│ • Documentar en Slack/wiki                                │
│ • Confirmar que entrante tiene acceso                     │
│ • Transferir pager/enrutamiento de alertas                │
│ • Entrante confirma que está listo                        │
│                                                             │
│ GITSCRUM:                                                   │
│ Nota de traspaso enlazada al registro de rotación         │
└─────────────────────────────────────────────────────────────┘

Sostenibilidad

Previniendo el Burnout

PRÁCTICAS SOSTENIBLES DE GUARDIA:
┌─────────────────────────────────────────────────────────────┐
│                                                             │
│ MÉTRICAS A MONITOREAR:                                      │
│                                                             │
│ Alertas por turno:                                         │
│ Objetivo: < 5 por semana                                  │
│ Actual: 8 ⚠️ (investigar alertas ruidosas)                │
│                                                             │
│ Alertas fuera de horario:                                  │
│ Objetivo: < 2 por semana                                  │
│ Actual: 4 ⚠️ (priorizar automatización)                   │
│                                                             │
│ Tasa de falsos positivos:                                  │
│ Objetivo: < 10%                                           │
│ Actual: 25% ❌ (arreglar alertas)                         │
│                                                             │
│ ─────────────────────────────────────────────────────────── │
│                                                             │
│ REDUCIENDO CARGA DE GUARDIA:                                │
│                                                             │
│ ARREGLAR ALERTAS RUIDOSAS:                                  │
│ • Revisar todas las alertas trimestralmente               │
│ • Eliminar o arreglar alertas de bajo valor               │
│ • Ajustar umbrales                                        │
│ • Agregar automatización para arreglos comunes            │
│                                                             │
│ MEJORAR CONFIABILIDAD:                                      │
│ • Arreglar causas raíz, no solo síntomas                  │
│ • Invertir en infraestructura                             │
│ • Mejor testing y canaries                                │
│ • Ingeniería del caos                                     │
│                                                             │
│ APOYAR LA GUARDIA:                                          │
│ • Compensar justamente                                    │
│ • Permitir recuperación de tiempo después de turnos duros │
│ • Celebrar semanas tranquilas                             │
│ • El liderazgo también hace guardia                       │
│                                                             │
│ TAMAÑO DEL EQUIPO:                                          │
│ Mínimo 4-5 personas para rotación sostenible              │
│ Menos = turnos muy frecuentes                             │
└─────────────────────────────────────────────────────────────┘

Gestión de Guardias con GitScrum

Fundamentos de las Guardias

Por Qué Existen las Guardias

Configuración de Rotación

Construyendo el Horario

Ruta de Escalamiento

Preparación para Guardias

Runbooks

Kit de Herramientas de Guardia

Planificación de Sprint con Guardia

Ajuste de Capacidad

Traspaso de Guardia

Sostenibilidad

Previniendo el Burnout

Soluciones Relacionadas