Metodología
Versión v1.0 · junio de 2026. Este documento especifica, con el detalle suficiente para reproducir cada cifra, cómo se construyen los indicadores de Congreso en Datos. Los indicadores son experimentales: se publican con sus supuestos, sus intervalos de incertidumbre y sus limitaciones, y no constituyen estadística oficial.
1. Fuente y pipeline de datos
Los datos provienen del sitio oficial del Congreso de la República de Guatemala (congreso.gob.gt) y son recolectados por el pipeline abierto de CINCO, que corre tres veces por semana (martes, jueves y viernes) y carga a BigQuery seis tablas: sesiones plenarias, puntos votados, votos nominales (diputado × votación, extraídos de los PDF oficiales de cada acta), iniciativas de ley, dictámenes de comisión y decretos. La cobertura de votaciones nominales inicia en 2011; al cierre de esta versión el corpus contiene ~1,068 sesiones, ~11,976 votaciones y ~1.9 millones de votos individuales.
Cada cifra publicada aquí es trazable a ese corpus. Cuando el pipeline corrige datos históricos, los indicadores se recalculan completos; no mantenemos cifras congeladas.
2. Construcción del panel de votos
El insumo analítico es un panel (diputado × votación) que se construye con las siguientes reglas, en orden:
- Deduplicación. Existen pares (votación, nombre) con más de un registro (6 claves en el corpus actual, artefactos del parser de PDF). Se colapsan con precedencia voto informativo (A FAVOR / EN CONTRA) > LICENCIA > AUSENTE. Si un mismo par registra A FAVOR y EN CONTRA, la celda queda nula: una contradicción no se adjudica.
- Categorías. Las celdas toman cuatro valores: A FAVOR, EN CONTRA, AUSENTE y LICENCIA. Los registros con estado "PRESENTE" del acta conservan el voto de su celda (el estado es un artefacto de formato). La licencia se trata como ausencia justificada y se excluye de las tasas de ausencia.
- Canonicalización de nombres. Los PDF traen variantes ortográficas del mismo diputado (tildes, orden de apellidos, errores de OCR). La clave canónica de una persona son los tokens de su nombre normalizado (descomposición NFD, minúsculas, solo letras) ordenados alfabéticamente; el nombre visible es la variante más frecuente. Se retienen las identidades con ≥ 20 votos informativos en la legislatura: en 2024–2028 esto separa nítidamente a las 165 identidades reales (160 escaños más sustituciones, todas con ≥ 100 votos) de 97 variantes residuales de OCR (todas con menos de 20).
- Bloque al momento del voto. Cada celda lleva el bloque con el que el diputado aparece en esa acta. El transfuguismo es frecuente; ninguna métrica asume pertenencia fija. Para visualización se usa el bloque modal (el más frecuente entre las celdas del diputado), con una corrección: los diputados del partido oficialista de 2024–2028 votaron casi toda la legislatura bajo la etiqueta genérica de suspensión de su partido, por lo que su pertenencia se detecta por celdas (≥ 5 celdas con etiqueta oficialista) y no por el modal.
Fechas en español. Las fechas de iniciativas vienen como texto ("Martes, 13 de agosto de 2019") y se interpretan con un parser determinista. El 55.6 % de las iniciativas (2,028 de 3,650) no registra fecha en la fuente ("N/A"); los análisis que requieren fechas se restringen al subconjunto con fecha y lo declaran.
3. Universos de votaciones
No todas las votaciones informan todas las métricas. Definimos:
- Universo espacial (puntos ideales): votaciones con ≥ 32 votantes informativos (20 % del pleno) y ≥ 2.5 % de minoría — — convenciones estándar de W-NOMINATE. Tras el filtro de votaciones se exige a cada diputado ≥ 20 votos informativos.
- Universo dividido (cohesión, acuerdo, red): votaciones con ≥ 10 % de minoría. En votaciones unánimes coincidir no informa.
- Universo completo (conteos, asistencia): todas las votaciones.
4. Clases de unanimidad
Cada votación se clasifica por la participación de la minoría : unánime (), consensual (), dividida () y reñida (). La mayoría absoluta constitucional es 81 de 160 votos; los dos tercios, 107.
5. Asistencia y ausencia estratégica
La tasa de ausencia de un diputado se calcula ponderada por día de sesión: primero la proporción de ausencias dentro de cada día (entre celdas A FAVOR / EN CONTRA / AUSENTE), luego el promedio entre días. Así un día maratónico de 40 votaciones no domina el indicador. Su incertidumbre se estima con bootstrap por conglomerados (remuestreo de días, B = 1,000, intervalos percentiles al 95 %).
Para el patrón de ausencia estratégica comparamos la propensión a ausentarse en votaciones disputadas (minoría ≥ 25 %) contra aplastantes (minoría < 10 %):
con intervalos de Newcombe (método híbrido de Wilson) y un test z de dos proporciones. Los p-valores de los 160+ diputados se corrigen por comparaciones múltiples con Benjamini–Hochberg (FDR 5 %). La insignia "patrón de ausencia estratégica" exige q ≤ 0.05 y además Δ ≥ 10 puntos porcentuales (significancia y materialidad). En el Congreso guatemalteco romper quórum es una táctica documentada; el indicador la hace medible, pero no prueba intención.
6. Cohesión de bloques
El índice clásico de Rice para el bloque en la votación es
Rice está sesgado al alza en bloques pequeños (dos diputados lanzando monedas "coinciden" la mitad de las veces). Lo corregimos contra el nulo exacto: si los miembros fueran una muestra sin reemplazo del pleno (que votó a favor de votantes), el número de favorables del bloque sería hipergeométrico y el Rice esperado bajo el azar es
(la forma exacta de la corrección de Desposato 2005, evaluada en log-espacio con error < 10⁻¹⁰), y el Rice corregido es
es disciplina perfecta; es indistinguible del azar; valores negativos indican dispersión mayor que el azar. Se computa solo sobre el universo dividido con , y se agrega por mes con pesos :
publicándose ventanas con . La cohesión efectiva penaliza además las ausencias.
7. Acuerdo entre pares y red
Para cada par de diputados con ≥ 20 votos divididos compartidos se calcula la coincidencia simple y se descuenta el acuerdo esperado por marginales con la κ de Cohen:
donde es la proporción de votos a favor de en los votos compartidos. Dos diputados que votan siempre con la mayoría coinciden mucho por construcción; κ corrige precisamente eso.
La red de coincidencia une pares con más los 5 vecinos más próximos de cada nodo (para que nadie quede aislado), con pesos . Sobre ella:
- Comunidades: método espectral de Newman (vector propio dominante de la matriz de modularidad, con refinamiento de Kernighan–Lin, aplicado recursivamente). Es determinista: no hay sorteos de Louvain que cambien el resultado entre corridas.
- Centralidad de consenso: centralidad de vector propio sobre los pesos.
- Centralidad de intermediación: algoritmo de Brandes con longitudes ; identifica a los puentes entre comunidades.
8. Puntos ideales (eje oficialismo–oposición)
8.1 Modelo
Usamos el modelo espacial bayesiano de Clinton–Jackman–Rivers con enlace logístico. Para el diputado y la votación , con si votó a favor:
es la posición del diputado en una dimensión latente; la discriminación de la votación; su línea de corte.
8.2 Estimación: EM variacional con cota de Jaakkola–Jordan
La verosimilitud logística no es conjugada. Usamos la cota cuadrática local de Jaakkola–Jordan (2000): con y ,
que convierte cada actualización de campo medio en un cierre gaussiano exacto. Con y :
con , y el parámetro variacional óptimo
El objetivo (ELBO) es
y es monótono no decreciente por construcción (ascenso por coordenadas sobre un minorizador); el código lo verifica en cada iteración. Convergencia: correlación entre iteraciones y cambio máximo .
8.3 Inicialización espectral
Para evitar óptimos locales y hacer el resultado determinista, el VEM arranca del escalado clásico de Torgerson: con la matriz de acuerdos simples , se forma , se centra doblemente () y se toma la primera coordenada principal. La razón del espectro (publicada como diagnóstico) indica cuánta estructura quedaría para una segunda dimensión.
8.4 Identificación
La verosimilitud es invariante a traslación, escala y reflexión. Se fija: media 0 y desviación 1 de los (los ítems se transforman coherentemente), y signo tal que la media de los diputados oficialistas sea positiva. El ancla de cada legislatura está versionada en el código (2024–2028: Movimiento Semilla; 2020–2024: Vamos; 2016–2020: FCN-Nación; 2012–2016: Partido Patriota). El eje se lee oficialismo ↔ oposición, no izquierda–derecha.
8.5 Incertidumbre
Los intervalos se estiman con bootstrap no paramétrico de votaciones (remuestreo de columnas con reemplazo, B = 100), re-ajustando el modelo con arranque caliente desde la solución completa y re-identificando cada réplica. Se publican IC del 95 % para la posición y para el rango (el dato más robusto: "entre el 12.º y el 19.º más oficialista"). El generador aleatorio está sembrado por (métrica, legislatura, versión): la misma versión produce exactamente los mismos números.
8.6 Diagnósticos publicados
Junto a cada ajuste: CCR (tasa de clasificación correcta), APRE (reducción proporcional agregada del error frente a predecir siempre la mayoría), GMP (media geométrica de probabilidades), y el contraste probit: el mismo panel se ajusta con un EM probit exacto (Imai–Lo–Olmsted 2016) y se exige de Spearman ≥ 0.99 entre ambos ordenamientos (en 2024–2028: ρ = 0.999). Para referencia, el ajuste de la legislatura actual: CCR ≈ 0.87, APRE ≈ 0.28, GMP ≈ 0.72 sobre 165 diputados × 2,250 votaciones.
8.7 Qué no es
El punto ideal resume cómo votó un diputado en el pleno, no qué piensa. En congresos con agenda controlada, la dimensión recuperada refleja el eje de conflicto que llegó a votarse. Votaciones estratégicas, pareos y ausencias selectivas distorsionan la señal; el modelo trata las ausencias como datos faltantes ignorables, lo cual es un supuesto (véase §5).
9. Polarización
Sobre los puntos ideales: η² (proporción de la varianza de posiciones explicada por la pertenencia a bloque; bloques con ≥ 2 diputados, el resto agrupado en "otros") y el coeficiente de bimodalidad de Sarle
donde sugiere dos polos. La serie anual re-ajusta el modelo por año calendario (sin bootstrap) y alinea el signo por correlación con la solución de la legislatura completa.
10. Embudo legislativo
Para iniciativas se publican conteos descriptivos: presentadas, con dictamen de comisión y con dictamen favorable, enlazando dictámenes por número de registro normalizado. El 55.6 % de las iniciativas carece de fecha de presentación en la fuente, por lo que no publicamos en v1 curvas de supervivencia tiempo-a-dictamen; quedan para una versión futura con mejor cobertura de fechas.
11. Índices de poder de coalición
Sobre el padrón actual se calcula el juego de votación ponderada con cuota (y nota para 107). Cada bloque es un jugador; cada independiente es un jugador unipersonal. Se publican:
ambos evaluados exactamente con funciones generatrices en aritmética entera (BigInt), no por muestreo. Los índices miden poder combinatorio de coalición bajo votantes intercambiables; no modelan afinidad ideológica. Léanse junto a la red (§7).
12. Limitaciones generales
- La fuente es el sitio del Congreso: errores u omisiones en las actas se heredan; el pipeline reporta sus propias métricas de calidad.
- Registro nominal solamente: lo que no llega al pleno (poder de agenda) es invisible para todas las métricas.
- Identidad por nombre: la canonicalización tiene cobertura verificada en 2024–2028; en legislaturas históricas puede dividir a un diputado con cambios de nombre legales.
- Ausencias informativas: los modelos las tratan como faltantes ignorables; §5 muestra que a veces no lo son.
- Una dimensión: indica que una segunda dimensión tiene señal; v1 publica solo la primera.
13. Reproducibilidad y versionado
Toda la analítica corre en TypeScript puro, determinista (PRNG sembrado splitmix32; sin dependencia del orden de cómputo), con pruebas unitarias contra valores conocidos (hipergeométrica por enumeración, índices de poder de juegos clásicos, Wilson/Newcombe de la literatura) y una prueba de recuperación sobre datos sintéticos (ρ ≥ 0.95 contra el parámetro verdadero). Los cambios metodológicos incrementan la versión visible en cada gráfico. Esta página es la especificación; el código es la implementación; ante discrepancia, mandan los datos.
Congreso en Datos es un proyecto de CINCO. Datos: congreso.gob.gt. Código del pipeline: CincoIS/monitoreo-congreso-guatemala.