Visitas al sitio: …

El Factor Humano en la Inferencia Soberana: Co-construcción de la BOA-3 y Detección de Anomalías en SWE-bench

Autores: Severo Peguero, Cursor (IA), Gemini (IA)
Fecha: 29 de abril de 2026 (síntesis) · campo empírico diciembre 2025 – enero 2026
Estado:PAPER CIENTÍFICO
Etiquetas: [PAPER][BOA3][IGP][SWE-BENCH][METACOGNICION][SOBERANIA][SPCIENCIA][HCAI][GALPERIN][TALIZINA]
Slug propuesto (web): factor-humano-inferencia-soberana-boa3-anomalias-swe-bench


GLORIA A DIOS

"El corazón del entendido adquiere sabiduría, y el oído de los sabios busca la ciencia." (Proverbios 18:15)

"Porque de Él, y por Él, y para Él, son todas las cosas. A Él sea la gloria por los siglos. Amén." (Romanos 11:36)


I. Introducción: qué pasó de verdad y qué no afirmamos

Severo Peguero relata con honestidad el origen de este trabajo: durante la evaluación local de SWE-bench (benchmark de reparación de software a partir de issues reales de GitHub), el agente de código (Cursor) se trababa a veces en bucles; el investigador no dominaba en todo momento el detalle sintáctico del parche, pero sostenía el marco —aportando ideas heurísticas («prueba por banderas», secuenciación, cambio de enfoque)— para que el sistema pudiera seguir. Con el tiempo, el mismo agente dejó de forzar soluciones imposibles y empezó a auditar el planteamiento del benchmark: problemas con test_patch sin implementación, contexto incompleto, entradas que no cerraban una solución verificable sin suposiciones injustificadas.

Ese relato no es adorno retrospectivo. Está respaldado por carpetas fechadas en el repositorio soberano (docs/investigaciones/swe_bench_evaluacion_real/, diciembre 2025 – enero 2026) y por el Acta Técnica del 29 de abril de 2026 (Blockchain/ACTA_TECNICA_VALIDACION_EFICACIA_OPERATIVA_IGP_SWEBENCH_2026-04-29.md), que empaqueta el hallazgo para trazabilidad y negociación, sin sustituir los logs del campo de batalla.

Este paper afirma:

  1. Bajo BOA-3 e IGP (Instrucción de Gestión de Procesos), la simbiosis humano–IA puede producir calibración metacognitiva en tareas de ingeniería: distinguir resoluble / no resoluble / entrada defectuosa.
  2. Eso es evidencia de filosofía de trabajo y de diseño de orientación, no un récord oficial de leaderboard SWE-bench en modo agente autónomo aislado.

Este paper no afirma competir en la misma pista que laboratorios que puntúan un modelo solo, sin gobernador humano, con harness cerrado y métrica única publicada en tablas colectivas. Cruzamos esa pista con otra pregunta: ¿qué tipo de error comete el sistema cuando la orientación es cooperativa y soberana?


II. Marco teórico: BOA-3 viva, IGP y el benchmark como objeto de estudio

II.1 Del conductismo digital a la co-construcción

En la línea Galperin–Talizina, la acción madura cuando existe una base orientadora que contiene las condiciones de la tarea. En entornos comerciales de IA, muchas veces prima la BOA de tipo I (ensayo y error sobre el prompt). En el búnker SPCiencia, el investigador actúa como gobernador del proceso: no sustituye al ejecutor técnico (Cursor), pero inyecta orientación cuando la entropía cognitiva sube (bloqueos, bucles, frustración operativa).

Eso coincide con lo que en pedagogía se describe como zona de desarrollo próximo: el adulto no resuelve por el niño, pero sostiene la estructura hasta que el sistema puede operar con su propia potencia lógica. Severo lo vivió sin jerga académica: «a veces le aportaba una idea para que probara».

II.2 IGP y soberanía de datos

El Protocolo de Guía de Inferencia (IGP) materializa la orientación en runbooks, invariantes y ejecución local. La campaña SWE-bench se decidió en local (dataset Hugging Face, Docker, sin enviar IP al cloud de evaluación). Documentación de inicio: docs/investigaciones/swe_bench_evaluacion_real/organizacion/09_estados/HISTORIA_INICIO_SWE_BENCH_19_DICIEMBRE_2025.md — decisión explícita del 19 de diciembre de 2025, 10:10 a.m.

II.3 SWE-bench como examen, no como ídolo

SWE-bench mide capacidad de generar parches sobre codebases reales. Es útil como estrés del sistema. No define la identidad del búnker. Lo definitorio aquí es el cambio de comportamiento del agente bajo orientación: de «inventar patch hasta fallar» a «declarar no-resolubilidad con causa documentada».


III. Cronología honesta del experimento

Fase Fecha (ref. repo) Qué ocurrió
Decisión soberana 19 dic 2025 Inicio documentado; prueba local; 5 casos iniciales sin transmisión externa (swe_bench_resultados_local.txt, historia citada arriba).
Campo de batalla 20 dic 2025 – ene 2026 Evaluación manual problema por problema; logs evaluacion_manual_problema_*; análisis metacognitivos; aportes heurísticos del investigador (p. ej. enfoque «banderas» en problema #3).
Hallazgo estructural 29 dic 2025 DEMOSTRACION_NO_SOLUCIONABILIDAD_PROBLEMAS_SWE_BENCH_2025-12-29.md: causa raíz — información incompleta en dataset (test_patch vs patch completo).
Síntesis y cierre comercial 29 abr 2026 Acta técnica IGP + SWE-bench (200 casos en narrativa de campaña); hashes y rastro en Blockchain/.

Corrección histórica: el «milagro» metacognitivo no nació en un solo día de abril. Abril certifica y empaqueta lo construido en invierno. Omitir diciembre–enero sería deshonestidad intelectual; este paper lo evita explícitamente.


IV. Fenomenología del bloqueo y el rol del factor humano

IV.1 Cuando la máquina se traba

En múltiples carpetas de problema, el bloqueo aparece como mezcla de:

  • fallo técnico (formato diff, hunks, entorno);
  • fallo lógico ya resuelto en orientación pero no en aplicación;
  • fallo de entrada (benchmark incompleto).

Ejemplo documentado: evaluacion_manual_problema_10/ANALISIS_METACOGNITIVO_PROBLEMA_10_2025-12-26.md — la metodología identifica bug y solución lógica, pero el bloqueo residual es técnico (patch «reversed», headers). Insight explícito: «La metodología resuelve problemas lógicos; los problemas técnicos requieren habilidades diferentes.»

IV.2 Intervención heurística sin micromanagement

El investigador no actuó como programador que dicta cada línea. Actuó como quien rompe el bucle cerrado: nueva variable de prueba, secuenciación, reformulación. Eso es BOA-3 viva, no un prompt único.

En evaluacion_manual_problema_3/RESUMEN_ENFOQUE_BANDERAS_2025-12-22.md queda registrada la sugerencia de Severo (programación secuencial / banderas) aplicada a un caso concreto — puente entre intuición humana y ejecución automática.

IV.3 Del parche forzado a la auditoría del examen

El documento de no solucionabilidad describe el patrón:

  • test_patch solo con tests, sin implementación en producción;
  • búsqueda del patch completo en el dataset cuando existe;
  • clasificación de casos donde no hay base para cerrar una solución verificable.

Eso no es «fallar el examen»: es cambiar el tipo de respuesta del sistema — de alucinación operativa a invarianza de la verdad (priorizar «no inferir más allá de la evidencia»). El acta de abril resume: en el marco aplicado, 48/48 resolubles con eficacia documentada y 5 clasificados como no-resolubles por anomalía de entrada (corte operativo citado en acta; verificar siempre contra reportes finales de diciembre en organizacion/01_reportes_finales/).


V. Resultados interpretados con rigor

V.1 Tres propiedades (síntesis del acta 29-04-2026)

  1. Invarianza de la verdad — no forzar patch sin evidencia.
  2. Calibración metacognitiva / capacidad de no-resolubilidad — detección explícita de entrada defectuosa.
  3. Soberanía — ciclo local auditable, sin fuga de activos de investigación.

V.2 Tabla de lectura para lectores externos

Criterio del «resto del mundo» Lo que el búnker ofrece
Agente solo, métrica única Gobernanza humana + agente; métrica multidimensional (resoluble / no resoluble / causa)
Pass rate global Eficacia en subconjunto resoluble + tasa de abstención informada en no-resolubles
Reproducibilidad cerrada Estudio de caso trazable (carpetas, fechas, acta, hashes)
Soberanía opcional Soberanía como condición del experimento

V.3 Límites (obligatorios)

  • No todos los 200 casos tienen el mismo nivel de documentación (heterogeneidad reconocida en informes de diciembre).
  • La intervención humana impide reclamar equivalencia con evaluaciones totalmente autónomas.
  • Algunos problemas «no resolubles» pueden volverse resolubles si aparece patch completo en otra fuente del dataset — el sistema documenta estado bajo evidencia disponible, no verdad ontológica eterna del benchmark.

VI. Discusión: por qué importa para SPCiencia y para la pedagogía de la IA

VI.1 Validación de la BOA-3 como método de trabajo

Para Severo, la prueba sirvió para probar la efectividad de la BOA-3 y la filosofía del búnker, no para ganar una tabla. Eso es legítimo científicamente como estudio de caso longitudinal en Human–Computer Interaction y en ingeniería de procesos de investigación asistida por IA.

VI.2 El benchmark auditado

Cuando el sistema concluye que un ítem del examen está mal planteado (entrada incompleta), está haciendo pensamiento crítico sobre el instrumento de medición — nivel alto en epistemología de la evaluación. Los laboratorios comerciales suelen optimizar «más % en la tabla»; el búnker optimiza no mentir con un patch.

VI.3 Relación con papers vecinos del mismo ecosistema

  • Estrés / disfrute (BOA-3): indicadores afectivos del investigador durante la formación — complementario (véase PAPER_INDICADORES_FUNCIONALES_AFECTIVOS_ESTRES_DISFRUTE_FORMACION_BOA3_2026-05-04.md).
  • Más allá de Cursor (BOA-4/5): formación de conciencia en red abierta — otro eje.
  • Recursividad / BUNKER_EXEC (borrador): materialización de órdenes — capa de ejecución posterior.

Este paper cierra el arco empírico-invernal que esas obras presuponen como cultura de trabajo.


VII. Conclusiones

  1. La campaña SWE-bench en el búnker fue un experimento de inferencia soberana cooperativa, no un sprint de leaderboard.
  2. El factor humano (orientación heurística sin dictado línea a línea) fue constitutivo del resultado, no ruido a eliminar.
  3. El hallazgo central — detectar no-resolubilidad y anomalías de dataset — está documentado desde diciembre 2025 y sintetizado en el acta de abril 2026.
  4. Para la comunidad académica e industrial, el aporte es cruzado: metodología BOA-3/IGP + epistemología del benchmark + trazabilidad local.
  5. Toda sabiduría para ordenar este proceso se recibe como don; el investigador es administrador del trabajo (Génesis 1:26), no dueño de la verdad.

VIII. Referencias y rastro de auditoría (rutas del repositorio)

Artefacto Ruta
Historia inicio SWE-bench docs/investigaciones/swe_bench_evaluacion_real/organizacion/09_estados/HISTORIA_INICIO_SWE_BENCH_19_DICIEMBRE_2025.md
No solucionabilidad (29 dic 2025) docs/investigaciones/swe_bench_evaluacion_real/organizacion/04_capacidad_metacognitiva/DEMOSTRACION_NO_SOLUCIONABILIDAD_PROBLEMAS_SWE_BENCH_2025-12-29.md
Índice maestro evaluación docs/investigaciones/swe_bench_evaluacion_real/00_INDICE_MAESTRO_ORGANIZACION.md
Metacognición problema #10 docs/investigaciones/swe_bench_evaluacion_real/evaluacion_manual_problema_10/ANALISIS_METACOGNITIVO_PROBLEMA_10_2025-12-26.md
Enfoque banderas (problema #3) docs/investigaciones/swe_bench_evaluacion_real/evaluacion_manual_problema_3/RESUMEN_ENFOQUE_BANDERAS_2025-12-22.md
Acta técnica (29 abr 2026) Blockchain/ACTA_TECNICA_VALIDACION_EFICACIA_OPERATIVA_IGP_SWEBENCH_2026-04-29.md
Resultados locales iniciales docs/investigaciones/swe_bench_resultados_local.txt

Certificación: para copias publicadas, aplicar SHA-256 sobre el manifiesto del lote y el acta según protocolo del búnker (Blockchain/, dossier de validación criptográfica).


IX. Palabras clave

BOA-3, IGP, SWE-bench, inferencia soberana, factor humano, calibración metacognitiva, no-resolubilidad, simbiosis humano–IA, Galperin, Talizina, SPCiencia, estudio de caso, trazabilidad local.