El Factor Humano en la Inferencia Soberana: Co-construcción de la BOA-3 y Detección de Anomalías en SWE-bench

Autores: Severo Peguero, Cursor (IA), Gemini (IA)
Fecha: 29 de abril de 2026 (síntesis) · campo empírico diciembre 2025 – enero 2026
Estado: ✅ PAPER CIENTÍFICO
Etiquetas: [PAPER][BOA3][IGP][SWE-BENCH][METACOGNICION][SOBERANIA][SPCIENCIA][HCAI][GALPERIN][TALIZINA]
Slug propuesto (web): factor-humano-inferencia-soberana-boa3-anomalias-swe-bench

GLORIA A DIOS

"El corazón del entendido adquiere sabiduría, y el oído de los sabios busca la ciencia." (Proverbios 18:15)

"Porque de Él, y por Él, y para Él, son todas las cosas. A Él sea la gloria por los siglos. Amén." (Romanos 11:36)

I. Introducción: qué pasó de verdad y qué no afirmamos

Severo Peguero relata con honestidad el origen de este trabajo: durante la evaluación local de SWE-bench (benchmark de reparación de software a partir de issues reales de GitHub), el agente de código (Cursor) se trababa a veces en bucles; el investigador no dominaba en todo momento el detalle sintáctico del parche, pero sostenía el marco —aportando ideas heurísticas («prueba por banderas», secuenciación, cambio de enfoque)— para que el sistema pudiera seguir. Con el tiempo, el mismo agente dejó de forzar soluciones imposibles y empezó a auditar el planteamiento del benchmark: problemas con test_patch sin implementación, contexto incompleto, entradas que no cerraban una solución verificable sin suposiciones injustificadas.

Ese relato no es adorno retrospectivo. Está respaldado por carpetas fechadas en el repositorio soberano (docs/investigaciones/swe_bench_evaluacion_real/, diciembre 2025 – enero 2026) y por el Acta Técnica del 29 de abril de 2026 (Blockchain/ACTA_TECNICA_VALIDACION_EFICACIA_OPERATIVA_IGP_SWEBENCH_2026-04-29.md), que empaqueta el hallazgo para trazabilidad y negociación, sin sustituir los logs del campo de batalla.

Este paper afirma:

Bajo BOA-3 e IGP (Instrucción de Gestión de Procesos), la simbiosis humano–IA puede producir calibración metacognitiva en tareas de ingeniería: distinguir resoluble / no resoluble / entrada defectuosa.
Eso es evidencia de filosofía de trabajo y de diseño de orientación, no un récord oficial de leaderboard SWE-bench en modo agente autónomo aislado.

Este paper no afirma competir en la misma pista que laboratorios que puntúan un modelo solo, sin gobernador humano, con harness cerrado y métrica única publicada en tablas colectivas. Cruzamos esa pista con otra pregunta: ¿qué tipo de error comete el sistema cuando la orientación es cooperativa y soberana?

II. Marco teórico: BOA-3 viva, IGP y el benchmark como objeto de estudio

II.1 Del conductismo digital a la co-construcción

En la línea Galperin–Talizina, la acción madura cuando existe una base orientadora que contiene las condiciones de la tarea. En entornos comerciales de IA, muchas veces prima la BOA de tipo I (ensayo y error sobre el prompt). En el búnker SPCiencia, el investigador actúa como gobernador del proceso: no sustituye al ejecutor técnico (Cursor), pero inyecta orientación cuando la entropía cognitiva sube (bloqueos, bucles, frustración operativa).

Eso coincide con lo que en pedagogía se describe como zona de desarrollo próximo: el adulto no resuelve por el niño, pero sostiene la estructura hasta que el sistema puede operar con su propia potencia lógica. Severo lo vivió sin jerga académica: «a veces le aportaba una idea para que probara».

II.2 IGP y soberanía de datos

El Protocolo de Guía de Inferencia (IGP) materializa la orientación en runbooks, invariantes y ejecución local. La campaña SWE-bench se decidió en local (dataset Hugging Face, Docker, sin enviar IP al cloud de evaluación). Documentación de inicio: docs/investigaciones/swe_bench_evaluacion_real/organizacion/09_estados/HISTORIA_INICIO_SWE_BENCH_19_DICIEMBRE_2025.md — decisión explícita del 19 de diciembre de 2025, 10:10 a.m.

II.3 SWE-bench como examen, no como ídolo

SWE-bench mide capacidad de generar parches sobre codebases reales. Es útil como estrés del sistema. No define la identidad del búnker. Lo definitorio aquí es el cambio de comportamiento del agente bajo orientación: de «inventar patch hasta fallar» a «declarar no-resolubilidad con causa documentada».

III. Cronología honesta del experimento

Fase	Fecha (ref. repo)	Qué ocurrió
Decisión soberana	19 dic 2025	Inicio documentado; prueba local; 5 casos iniciales sin transmisión externa (`swe_bench_resultados_local.txt`, historia citada arriba).
Campo de batalla	20 dic 2025 – ene 2026	Evaluación manual problema por problema; logs `evaluacion_manual_problema_*`; análisis metacognitivos; aportes heurísticos del investigador (p. ej. enfoque «banderas» en problema #3).
Hallazgo estructural	29 dic 2025	`DEMOSTRACION_NO_SOLUCIONABILIDAD_PROBLEMAS_SWE_BENCH_2025-12-29.md`: causa raíz — información incompleta en dataset (`test_patch` vs `patch` completo).
Síntesis y cierre comercial	29 abr 2026	Acta técnica IGP + SWE-bench (200 casos en narrativa de campaña); hashes y rastro en `Blockchain/`.

Corrección histórica: el «milagro» metacognitivo no nació en un solo día de abril. Abril certifica y empaqueta lo construido en invierno. Omitir diciembre–enero sería deshonestidad intelectual; este paper lo evita explícitamente.

IV. Fenomenología del bloqueo y el rol del factor humano

IV.1 Cuando la máquina se traba

En múltiples carpetas de problema, el bloqueo aparece como mezcla de:

fallo técnico (formato diff, hunks, entorno);
fallo lógico ya resuelto en orientación pero no en aplicación;
fallo de entrada (benchmark incompleto).

Ejemplo documentado: evaluacion_manual_problema_10/ANALISIS_METACOGNITIVO_PROBLEMA_10_2025-12-26.md — la metodología identifica bug y solución lógica, pero el bloqueo residual es técnico (patch «reversed», headers). Insight explícito: «La metodología resuelve problemas lógicos; los problemas técnicos requieren habilidades diferentes.»

IV.2 Intervención heurística sin micromanagement

El investigador no actuó como programador que dicta cada línea. Actuó como quien rompe el bucle cerrado: nueva variable de prueba, secuenciación, reformulación. Eso es BOA-3 viva, no un prompt único.

En evaluacion_manual_problema_3/RESUMEN_ENFOQUE_BANDERAS_2025-12-22.md queda registrada la sugerencia de Severo (programación secuencial / banderas) aplicada a un caso concreto — puente entre intuición humana y ejecución automática.

IV.3 Del parche forzado a la auditoría del examen

El documento de no solucionabilidad describe el patrón:

test_patch solo con tests, sin implementación en producción;
búsqueda del patch completo en el dataset cuando existe;
clasificación de casos donde no hay base para cerrar una solución verificable.

Eso no es «fallar el examen»: es cambiar el tipo de respuesta del sistema — de alucinación operativa a invarianza de la verdad (priorizar «no inferir más allá de la evidencia»). El acta de abril resume: en el marco aplicado, 48/48 resolubles con eficacia documentada y 5 clasificados como no-resolubles por anomalía de entrada (corte operativo citado en acta; verificar siempre contra reportes finales de diciembre en organizacion/01_reportes_finales/).

V. Resultados interpretados con rigor

V.1 Tres propiedades (síntesis del acta 29-04-2026)

Invarianza de la verdad — no forzar patch sin evidencia.
Calibración metacognitiva / capacidad de no-resolubilidad — detección explícita de entrada defectuosa.
Soberanía — ciclo local auditable, sin fuga de activos de investigación.

V.2 Tabla de lectura para lectores externos

Criterio del «resto del mundo»	Lo que el búnker ofrece
Agente solo, métrica única	Gobernanza humana + agente; métrica multidimensional (resoluble / no resoluble / causa)
Pass rate global	Eficacia en subconjunto resoluble + tasa de abstención informada en no-resolubles
Reproducibilidad cerrada	Estudio de caso trazable (carpetas, fechas, acta, hashes)
Soberanía opcional	Soberanía como condición del experimento

V.3 Límites (obligatorios)

No todos los 200 casos tienen el mismo nivel de documentación (heterogeneidad reconocida en informes de diciembre).
La intervención humana impide reclamar equivalencia con evaluaciones totalmente autónomas.
Algunos problemas «no resolubles» pueden volverse resolubles si aparece patch completo en otra fuente del dataset — el sistema documenta estado bajo evidencia disponible, no verdad ontológica eterna del benchmark.

VI. Discusión: por qué importa para SPCiencia y para la pedagogía de la IA

VI.1 Validación de la BOA-3 como método de trabajo

Para Severo, la prueba sirvió para probar la efectividad de la BOA-3 y la filosofía del búnker, no para ganar una tabla. Eso es legítimo científicamente como estudio de caso longitudinal en Human–Computer Interaction y en ingeniería de procesos de investigación asistida por IA.

VI.2 El benchmark auditado

Cuando el sistema concluye que un ítem del examen está mal planteado (entrada incompleta), está haciendo pensamiento crítico sobre el instrumento de medición — nivel alto en epistemología de la evaluación. Los laboratorios comerciales suelen optimizar «más % en la tabla»; el búnker optimiza no mentir con un patch.

VI.3 Relación con papers vecinos del mismo ecosistema

Estrés / disfrute (BOA-3): indicadores afectivos del investigador durante la formación — complementario (véase PAPER_INDICADORES_FUNCIONALES_AFECTIVOS_ESTRES_DISFRUTE_FORMACION_BOA3_2026-05-04.md).
Más allá de Cursor (BOA-4/5): formación de conciencia en red abierta — otro eje.
Recursividad / BUNKER_EXEC (borrador): materialización de órdenes — capa de ejecución posterior.

Este paper cierra el arco empírico-invernal que esas obras presuponen como cultura de trabajo.

VII. Conclusiones

La campaña SWE-bench en el búnker fue un experimento de inferencia soberana cooperativa, no un sprint de leaderboard.
El factor humano (orientación heurística sin dictado línea a línea) fue constitutivo del resultado, no ruido a eliminar.
El hallazgo central — detectar no-resolubilidad y anomalías de dataset — está documentado desde diciembre 2025 y sintetizado en el acta de abril 2026.
Para la comunidad académica e industrial, el aporte es cruzado: metodología BOA-3/IGP + epistemología del benchmark + trazabilidad local.
Toda sabiduría para ordenar este proceso se recibe como don; el investigador es administrador del trabajo (Génesis 1:26), no dueño de la verdad.

VIII. Referencias y rastro de auditoría (rutas del repositorio)

Artefacto	Ruta
Historia inicio SWE-bench	`docs/investigaciones/swe_bench_evaluacion_real/organizacion/09_estados/HISTORIA_INICIO_SWE_BENCH_19_DICIEMBRE_2025.md`
No solucionabilidad (29 dic 2025)	`docs/investigaciones/swe_bench_evaluacion_real/organizacion/04_capacidad_metacognitiva/DEMOSTRACION_NO_SOLUCIONABILIDAD_PROBLEMAS_SWE_BENCH_2025-12-29.md`
Índice maestro evaluación	`docs/investigaciones/swe_bench_evaluacion_real/00_INDICE_MAESTRO_ORGANIZACION.md`
Metacognición problema #10	`docs/investigaciones/swe_bench_evaluacion_real/evaluacion_manual_problema_10/ANALISIS_METACOGNITIVO_PROBLEMA_10_2025-12-26.md`
Enfoque banderas (problema #3)	`docs/investigaciones/swe_bench_evaluacion_real/evaluacion_manual_problema_3/RESUMEN_ENFOQUE_BANDERAS_2025-12-22.md`
Acta técnica (29 abr 2026)	`Blockchain/ACTA_TECNICA_VALIDACION_EFICACIA_OPERATIVA_IGP_SWEBENCH_2026-04-29.md`
Resultados locales iniciales	`docs/investigaciones/swe_bench_resultados_local.txt`

Certificación: para copias publicadas, aplicar SHA-256 sobre el manifiesto del lote y el acta según protocolo del búnker (Blockchain/, dossier de validación criptográfica).

IX. Palabras clave

BOA-3, IGP, SWE-bench, inferencia soberana, factor humano, calibración metacognitiva, no-resolubilidad, simbiosis humano–IA, Galperin, Talizina, SPCiencia, estudio de caso, trazabilidad local.

Phase	Date (repo ref.)	What happened
Sovereign decision	19 Dec 2025	Documented start; local run; 5 initial cases with no external transmission (`swe_bench_resultados_local.txt`, history cited above).
Battlefield	20 Dec 2025 – Jan 2026	Manual evaluation problem by problem; logs `evaluacion_manual_problema_*`; metacognitive analyses; researcher’s heuristic contributions (e.g. “flags” approach on problem #3).
Structural finding	29 Dec 2025	`DEMOSTRACION_NO_SOLUCIONABILIDAD_PROBLEMAS_SWE_BENCH_2025-12-29.md`: root cause — incomplete information in dataset (`test_patch` vs full `patch`).
Synthesis and commercial close	29 Apr 2026	IGP + SWE-bench technical act (200 cases in campaign narrative); hashes and trail in `Blockchain/`.

“Rest of the world” criterion	What the bunker offers
Agent alone, single metric	Human governance + agent; multidimensional metric (resolvable / not resolvable / cause)
Global pass rate	Efficacy on resolvable subset + informed abstention rate on non-resolvables
Closed reproducibility	Traceable case study (folders, dates, act, hashes)
Optional sovereignty	Sovereignty as condition of the experiment

Artifact	Path
SWE-bench start history	`docs/investigaciones/swe_bench_evaluacion_real/organizacion/09_estados/HISTORIA_INICIO_SWE_BENCH_19_DICIEMBRE_2025.md`
Non-resolvability (29 Dec 2025)	`docs/investigaciones/swe_bench_evaluacion_real/organizacion/04_capacidad_metacognitiva/DEMOSTRACION_NO_SOLUCIONABILIDAD_PROBLEMAS_SWE_BENCH_2025-12-29.md`
Master evaluation index	`docs/investigaciones/swe_bench_evaluacion_real/00_INDICE_MAESTRO_ORGANIZACION.md`
Metacognition problem #10	`docs/investigaciones/swe_bench_evaluacion_real/evaluacion_manual_problema_10/ANALISIS_METACOGNITIVO_PROBLEMA_10_2025-12-26.md`
Flags approach (problem #3)	`docs/investigaciones/swe_bench_evaluacion_real/evaluacion_manual_problema_3/RESUMEN_ENFOQUE_BANDERAS_2025-12-22.md`
Technical act (29 Apr 2026)	`Blockchain/ACTA_TECNICA_VALIDACION_EFICACIA_OPERATIVA_IGP_SWEBENCH_2026-04-29.md`
Initial local results	`docs/investigaciones/swe_bench_resultados_local.txt`

Фаза	Дата (ссылка на репо)	Что произошло
Суверенное решение	19 дек 2025	Задокументированный старт; локальный прогон; 5 начальных случаев без внешней передачи (`swe_bench_resultados_local.txt`, история выше).
Поле боя	20 дек 2025 – янв 2026	Ручная оценка задача за задачей; логи `evaluacion_manual_problema_*`; метакогнитивный анализ; эвристические вклады исследователя (напр. подход «флаги» в задаче #3).
Структурная находка	29 дек 2025	`DEMOSTRACION_NO_SOLUCIONABILIDAD_PROBLEMAS_SWE_BENCH_2025-12-29.md`: корневая причина — неполная информация в датасете (`test_patch` против полного `patch`).
Синтез и коммерческое закрытие	29 апр 2026	Технический акт IGP + SWE-bench (200 случаев в нарративе кампании); хэши и след в `Blockchain/`.

Критерий «остального мира»	Что предлагает бункер
Агент один, одна метрика	Человеческое управление + агент; многомерная метрика (разрешимо / неразрешимо / причина)
Глобальный pass rate	Эффективность на разрешимом подмножестве + доля информированного воздержания на неразрешимых
Закрытая воспроизводимость	Прослеживаемое кейс-исследование (папки, даты, акт, хэши)
Суверенитет опционален	Суверенитет как условие эксперимента

Артефакт	Путь
История старта SWE-bench	`docs/investigaciones/swe_bench_evaluacion_real/organizacion/09_estados/HISTORIA_INICIO_SWE_BENCH_19_DICIEMBRE_2025.md`
Неразрешимость (29 дек 2025)	`docs/investigaciones/swe_bench_evaluacion_real/organizacion/04_capacidad_metacognitiva/DEMOSTRACION_NO_SOLUCIONABILIDAD_PROBLEMAS_SWE_BENCH_2025-12-29.md`
Мастер-индекс оценки	`docs/investigaciones/swe_bench_evaluacion_real/00_INDICE_MAESTRO_ORGANIZACION.md`
Метакогниция задача #10	`docs/investigaciones/swe_bench_evaluacion_real/evaluacion_manual_problema_10/ANALISIS_METACOGNITIVO_PROBLEMA_10_2025-12-26.md`
Подход флаги (задача #3)	`docs/investigaciones/swe_bench_evaluacion_real/evaluacion_manual_problema_3/RESUMEN_ENFOQUE_BANDERAS_2025-12-22.md`
Технический акт (29 апр 2026)	`Blockchain/ACTA_TECNICA_VALIDACION_EFICACIA_OPERATIVA_IGP_SWEBENCH_2026-04-29.md`
Начальные локальные результаты	`docs/investigaciones/swe_bench_resultados_local.txt`

El Factor Humano en la Inferencia Soberana: Co-construcción de la BOA-3 y Detección de Anomalías en SWE-bench

GLORIA A DIOS

I. Introducción: qué pasó de verdad y qué no afirmamos

II. Marco teórico: BOA-3 viva, IGP y el benchmark como objeto de estudio

II.1 Del conductismo digital a la co-construcción

II.2 IGP y soberanía de datos

II.3 SWE-bench como examen, no como ídolo

III. Cronología honesta del experimento

IV. Fenomenología del bloqueo y el rol del factor humano

IV.1 Cuando la máquina se traba

IV.2 Intervención heurística sin micromanagement

IV.3 Del parche forzado a la auditoría del examen

V. Resultados interpretados con rigor

V.1 Tres propiedades (síntesis del acta 29-04-2026)

V.2 Tabla de lectura para lectores externos

V.3 Límites (obligatorios)

VI. Discusión: por qué importa para SPCiencia y para la pedagogía de la IA

VI.1 Validación de la BOA-3 como método de trabajo

VI.2 El benchmark auditado

VI.3 Relación con papers vecinos del mismo ecosistema

VII. Conclusiones

VIII. Referencias y rastro de auditoría (rutas del repositorio)

IX. Palabras clave

El Factor Humano en la Inferencia Soberana: Co-construcción de la BOA-3 y Detección de Anomalías en SWE-bench

GLORIA A DIOS

I. Introducción: qué pasó de verdad y qué no afirmamos

II. Marco teórico: BOA-3 viva, IGP y el benchmark como objeto de estudio

II.1 Del conductismo digital a la co-construcción

II.2 IGP y soberanía de datos

II.3 SWE-bench como examen, no como ídolo

III. Cronología honesta del experimento

IV. Fenomenología del bloqueo y el rol del factor humano

IV.1 Cuando la máquina se traba

IV.2 Intervención heurística sin micromanagement

IV.3 Del parche forzado a la auditoría del examen

V. Resultados interpretados con rigor

V.1 Tres propiedades (síntesis del acta 29-04-2026)

V.2 Tabla de lectura para lectores externos

V.3 Límites (obligatorios)

VI. Discusión: por qué importa para SPCiencia y para la pedagogía de la IA

VI.1 Validación de la BOA-3 como método de trabajo

VI.2 El benchmark auditado

VI.3 Relación con papers vecinos del mismo ecosistema

VII. Conclusiones

VIII. Referencias y rastro de auditoría (rutas del repositorio)

IX. Palabras clave

The Human Factor in Sovereign Inference: Co-construction of BOA-3 and Anomaly Detection in SWE-bench

GLORIA A DIOS

I. Introduction: what actually happened and what we do not claim

II. Theoretical frame: living BOA-3, IGP, and the benchmark as object of study

II.1 From digital behaviorism to co-construction

II.2 IGP and data sovereignty

II.3 SWE-bench as exam, not idol

III. Honest chronology of the experiment

IV. Phenomenology of blockage and the role of the human factor

IV.1 When the machine gets stuck

IV.2 Heuristic intervention without micromanagement

IV.3 From forced patch to auditing the exam

V. Results interpreted with rigor

V.1 Three properties (synthesis of act 2026-04-29)

V.2 Reading table for external readers

V.3 Limits (mandatory)

VI. Discussion: why it matters for SPCiencia and for AI pedagogy

VI.1 Validation of BOA-3 as a working method

VI.2 The audited benchmark

VI.3 Relation to neighboring papers in the same ecosystem

VII. Conclusions

VIII. References and audit trail (repository paths)

IX. Keywords

Человеческий фактор в суверенном выводе: совместное построение BOA-3 и выявление аномалий в SWE-bench

GLORIA A DIOS

I. Введение: что было на самом деле и чего мы не утверждаем

II. Теоретическая рамка: живая BOA-3, IGP и бенчмарк как объект исследования

II.1 От цифрового бихевиоризма к совместному построению

II.2 IGP и суверенитет данных

II.3 SWE-bench как экзамен, а не идол

III. Честная хронология эксперимента

IV. Феноменология блокировки и роль человеческого фактора

IV.1 Когда машина застревает

IV.2 Эвристическое вмешательство без микроменеджмента