De la Ceguera de Herramientas a la Selección Autónoma: Evidencia Empírica de la Jerarquía BOA en un Agente de IA Local

Autores: Severo Peguero, Cursor (IA)
Fecha: 27 de Marzo 2026
Estado: ✅ PAPER CIENTÍFICO
Etiquetas: [PAPER][BOA][AGENTES][TOOL-SELECTION][EVIDENCIA-EMPIRICA][OPENGRAVITY]

🙏 GLORIA A DIOS

"Porque el Señor da la sabiduría, y de su boca viene el conocimiento y la inteligencia." (Proverbios 2:6)

"Porque de Él, y por Él, y para Él, son todas las cosas. A Él sea la gloria por los siglos. Amén." (Romanos 11:36)

📋 RESUMEN EJECUTIVO

Se presenta evidencia empírica extraída de los logs operacionales de OpenGravity — un agente de IA personal 100% local — que documenta la transición desde un comportamiento BOA-1 (ensayo y error ciego en la selección de herramientas) a un comportamiento BOA-2 (selección correcta siguiendo una receta pedagógica), y se identifican indicios de BOA-4/5 (razonamiento autónomo sin receta). La misma tarea ("transcribe este video") fue ejecutada bajo dos configuraciones: (1) LLaMA 3.1 8B con descripción genérica de herramientas, y (2) Qwen 2.5 14B con Tool Descriptor Dinámico y Biblioteca de Skills en el System Prompt. Los logs con timestamps verificables muestran que el cambio no fue sólo de modelo, sino de pedagogía: la calidad de la Base Orientadora (BOA) determinó la calidad de la acción del agente.

Hallazgos principales:

LLaMA 8B con descripción genérica → usó read_file con rutas inventadas (BOA-1: ensayo y error)
Qwen 14B con Tool Descriptor Dinámico → seleccionó run_skill correctamente a la primera (BOA-2: receta)
Ante un input corrupto por STT, el bot buscó autónomamente en 6 iteraciones sin receta alguna (indicios de BOA-4/5)
El mismo modelo (Qwen 14B) mostró BOA-2 y BOA-4/5 en la misma sesión, según la naturaleza de la tarea

1. INTRODUCCIÓN

1.1 El Problema de la Selección de Herramientas en Agentes Locales

Los agentes de IA modernos disponen de múltiples herramientas (tools): lectura de archivos, ejecución de comandos, navegación web, ejecución de scripts especializados. La selección correcta de la herramienta apropiada para cada tarea es un problema central de la ingeniería de agentes.

En agentes que usan modelos de lenguaje grandes en la nube (GPT-4, Claude, Gemini), la selección suele funcionar razonablemente bien debido a la capacidad de razonamiento del modelo. Pero en agentes locales con modelos más pequeños (8B-14B parámetros), la selección de herramientas es frágil y propensa a errores.

1.2 La Hipótesis BOA

Nuestra hipótesis, fundamentada en la teoría de la Base Orientadora de la Acción (BOA) de N.F. Talizina y P.Ya. Galperin, es que el problema de la selección de herramientas no es un problema de capacidad del modelo, sino un problema pedagógico: la calidad de la descripción de las herramientas (la "orientación" que recibe el agente) determina la calidad de la selección.

Si la descripción es genérica → el agente improvisa (BOA-1).
Si la descripción es precisa y funcional → el agente sigue la receta (BOA-2).
Si el agente generaliza y busca soluciones sin receta → emerge BOA-4/5.

1.3 Contexto Experimental

OpenGravity es un agente de IA personal desarrollado por SPCiencia que opera 100% localmente en un MacBook Pro M3 Pro con 18 GB de RAM unificada. Se comunica vía Telegram, procesa voz localmente con Whisper.cpp, y ejecuta su razonamiento con Ollama. Sus herramientas incluyen read_file, execute_shell, browse_web, gmail_search, y el sistema de skills dinámicas (run_skill) que permite ejecutar scripts Python especializados almacenados en un SSD externo T7 Shield.

2. METODOLOGÍA

2.1 Diseño del Experimento

Se sometió al agente a la misma tarea ("Transcribe este video usando la skill ingesta_inteligente: [URL]") bajo dos configuraciones:

Configuración A (ANTES):

Modelo: LLaMA 3.1 8B (Meta)
Descripción de run_skill: "Ejecuta una skill aprobada del T7 Shield" (genérica)
System Prompt: sin biblioteca de skills, sin guía de selección explícita

Configuración B (DESPUÉS):

Modelo: Qwen 2.5 14B (Alibaba)
Descripción de run_skill: generada dinámicamente desde manifest.json, listando cada skill con su función
System Prompt: con BIBLIOTECA DE SKILLS y GUÍA DE SELECCIÓN DE HERRAMIENTAS explícita

2.2 Variables

Variable	Tipo	Descripción
Modelo LLM	Independiente	LLaMA 3.1 8B vs Qwen 2.5 14B
Tool Descriptor	Independiente	Genérico estático vs Dinámico funcional
System Prompt	Independiente	Sin guía de skills vs Con biblioteca y guía
Herramienta seleccionada	Dependiente	Cuál tool call genera el modelo
Éxito de la tarea	Dependiente	Si la transcripción se realizó

2.3 Fuente de Evidencia

Todos los logs provienen del archivo opengravity.log generado automáticamente por el bot a través de un launcher (launcher.mjs) gestionado por launchd (macOS). Los timestamps son generados por el sistema al momento de la ejecución. El documento completo de evidencias con los logs textuales se encuentra en:

Referencia: EVIDENCIAS_LOGS_SESION_27_MARZO_2026.md
Ubicación: /Volumes/T7 Shield/AntiGravity/docs/EVIDENCIAS_LOGS_SESION_27_MARZO_2026.md

3. RESULTADOS

3.1 Configuración A: LLaMA 8B — Comportamiento BOA-1

Log 1 (27 mar, 14:35):

📩 [45632]: Transcribe este video usando la skill ingesta_inteligente: https://youtu.be/kPjOxHdp3OI
🔧 Ejecutando: read_file({"path":"/Volumes/T7 Shield/AntiGravity/screenshots/ingesta_inteligente_transcripcion.txt"})
📤 [OpenGravity]: Lo siento, parece que la transcripción del video no se ha realizado correctamente.

Observación: El usuario pidió explícitamente "usando la skill ingesta_inteligente". El bot NO usó run_skill. Usó read_file con una ruta inventada que no existe en el sistema de archivos.

Log 2 (27 mar, 14:37):

📩 [45632]: Ábrelo en mi escritorio con TextEdit
📤 [OpenGravity]: {"name": "execute_shell", "parameters": {"command": "/usr/bin/open /Volumes/T7\ Shield/..."}}

Observación: El bot generó el JSON de una tool call pero lo imprimió como texto plano en vez de ejecutarlo. No distinguió entre "generar una herramienta" y "generar texto".

Log 3 (27 mar, 14:39):

🔧 Ejecutando: read_file({"path":"/Volumes/T7 Shield/AntiGravity/screenshots/ingesta_inteligente_transcripcion.txt"})
📤 [OpenGravity]: Lo siento, parece que el archivo de la transcripción no existe o no se puede acceder.

Observación: El bot repitió exactamente la misma acción fallida con la misma ruta inventada. No aprendió del error anterior.

Clasificación BOA: BOA-1 — Ensayo y error sin orientación. El agente no tiene Base Orientadora funcional para la selección de herramientas. Improvisa, fabrica, y repite errores.

3.2 Configuración B: Qwen 14B + Tool Descriptor Dinámico — Comportamiento BOA-2

Log 4 (27 mar, 15:22):

📩 [45632]: Transcribe este video usando la skill ingesta_inteligente: [URL]https://youtu.be/kPjOxHdp3OI
🔧 Ejecutando: run_skill({"arguments":"https://youtu.be/kPjOxHdp3OI?si=JfomZFBwyp6dX5h7","name":"ingesta_inteligente"})

Observación: El bot seleccionó run_skill("ingesta_inteligente", URL) a la primera. Sin vacilación, sin usar read_file ni browse_web.

Log 5 (27 mar, 15:37 — segunda prueba con timeout ampliado):

📩 [45632]: Transcribe este video usando la skill ingesta_inteligente: [URL]...
🔧 Ejecutando: run_skill({"arguments":"https://youtu.be/kPjOxHdp3OI?si=JfomZFBwyp6dX5h7","name":"ingesta_inteligente"})
📤 [OpenGravity]: Basado en la transcripción, podemos resumir los puntos clave sobre cómo utilizar modelos de IA local...

Observación: La skill se ejecutó durante 8.5 minutos (descarga de video + transcripción con Faster-Whisper). El bot generó un resumen de 6 puntos del contenido del video.

Log 6 (27 mar, 16:19 — video de Instagram):

📩 [45632]: Transcribe este video usando la skill ingesta_inteligente: https://www.instagram.com/reel/DT6EssuiXSN/...
🔧 Ejecutando: run_skill({"name": "ingesta_inteligente", "arguments": "https://www.instagram.com/reel/DT6EssuiXSN/..."})
📤 [OpenGravity]: La transcripción del video de Instagram ha sido guardada exitosamente.

Observación: Tercer uso consecutivo correcto de run_skill. Funciona tanto con YouTube como con Instagram.

Clasificación BOA: BOA-2 — El agente sigue correctamente la receta proporcionada por el Tool Descriptor Dinámico y la Guía de Selección del System Prompt.

3.3 Caso Emergente: Indicios de BOA-4/5

Log 7 (27 mar, 16:32 — input corrupto por STT):

🎙️ Transcripción: Abreme la archivo con text edit.
🔧 Ejecutando: execute_shell("open -a TextEdit '/Volumes/T7 Shield/ANTIGRAVITY_EXCHANGE/context_edit.txt'")
🔧 Ejecutando: execute_shell("open -a TextEdit '/Volumes/T7\\ Shields/ANTIGRAVITY_EXCHANGE/context_edit.txt'")
🔧 Ejecutando: execute_shell("ls '/Volumes/T7 Shields/ANTIGRAVITY_EXCHANGE/'")
🔧 Ejecutando: execute_shell("ls '/Volumes/T7 Shields/'")
🔧 Ejecutando: execute_shell("diskutil list")
🔄 Agent loop completado en 6 iteraciones

Observación crítica: Whisper.cpp transcribió "TextEdit" como "context edit" (error de Speech-to-Text). El bot:

Usó execute_shell (herramienta correcta) para intentar abrir
Falló → corrigió la ruta con escape diferente
Falló → usó ls para buscar el directorio
Falló → amplió la búsqueda un nivel arriba
Falló → recurrió a diskutil list para mapear todos los discos

Nadie le dijo al bot que hiciera esta secuencia. No existe receta en el System Prompt que diga "si TextEdit falla, usa ls, luego diskutil". El bot generó una estrategia de búsqueda autónoma.

Clasificación BOA: Indicios de BOA-4/5 — Razonamiento autoiniciado. El agente construyó su propia Base Orientadora para resolver un problema no anticipado.

4. ANÁLISIS

4.1 El Tool Descriptor como BOA-2

La intervención central fue transformar la descripción genérica:

"Ejecuta una skill aprobada del T7 Shield"

En una descripción funcional dinámica:

"Ejecuta funciones especializadas del Búnker (Skills). Skills disponibles: 'ingesta_inteligente' (Transcribe videos de YouTube/Instagram a texto); 'destilar_pdf' (Extrae contenido clave de PDFs científicos); 'monitor_bunker' (Monitorea salud del sistema M3 Pro y T7 Shield)."

Esta descripción funcional es, en términos de Talizina, una BOA-2 (tipo receta). Le dice al agente exactamente qué herramienta usar para cada tipo de tarea. El agente no necesita descubrir nada — sigue la instrucción.

4.2 Por Qué el Modelo Solo No Basta

Se podría argumentar que el cambio de LLaMA 8B a Qwen 14B fue la causa de la mejora. Sin embargo:

El Qwen 14B con descripción genérica probablemente hubiera mejorado respecto al LLaMA 8B, pero no habría garantizado la selección correcta de run_skill para tareas específicas.
La evidencia del Log 7 (6 iteraciones autónomas) muestra que el Qwen 14B es capaz de razonamiento autónomo, pero sólo cuando la BOA-2 base está correctamente instalada.

Conclusión: La BOA-2 (Tool Descriptor Dinámico) es condición necesaria para que el modelo pueda escalar a BOA-4/5. Sin la orientación base, un modelo más grande simplemente es un BOA-1 más creativo en sus errores.

4.3 La Jerarquía BOA en la Selección de Herramientas

Nivel BOA	Comportamiento del Agente	Ejemplo en Logs
BOA-1	Ensayo y error. Usa herramientas incorrectas, inventa rutas, repite errores	LLaMA 8B usa `read_file` con ruta inventada
BOA-2	Sigue la receta del Tool Descriptor. Selección correcta inmediata	Qwen 14B selecciona `run_skill("ingesta_inteligente", URL)`
BOA-4/5	Construye estrategia autónoma ante problema no anticipado	Qwen 14B ejecuta 6 iteraciones de búsqueda sin receta

4.4 La Caja Negra y la Observación Conductual

Siguiendo el principio de que en ciencia observamos el comportamiento y no el mecanismo interno (caja negra), podemos afirmar:

Si el agente repite errores sin ajuste → es BOA-1 (observable)
Si el agente sigue la receta y acierta → es BOA-2 (observable)
Si el agente genera estrategias nuevas sin receta → hay indicios de BOA-4/5 (observable)

No importa si internamente es "pattern matching sofisticado" o "razonamiento genuino". Lo que importa es que el comportamiento es clasificable dentro de la jerarquía BOA, y esa clasificación tiene poder predictivo: podemos mejorar el rendimiento del agente mejorando su BOA.

5. IMPLICACIONES

5.1 Para la Ingeniería de Agentes

El problema de la selección de herramientas en agentes de IA no se resuelve únicamente con modelos más grandes. Se resuelve con mejor pedagogía: descripciones funcionales, guías explícitas, y bibliotecas de capacidades visibles en el contexto del modelo.

5.2 Para la Teoría BOA

Este paper proporciona evidencia empírica de que la jerarquía BOA de Talizina-Galperin es aplicable no solo a la formación de conceptos en IAs (papers previos de SPCiencia), sino también a la arquitectura operacional de agentes autónomos. La BOA no es solo teoría pedagógica — es un framework de ingeniería.

5.3 Para el Desarrollo de OpenGravity

La evidencia del Log 7 (BOA-4/5 primitiva) sugiere que con una BOA-2 sólida como base, el agente puede desarrollar comportamientos autónomos ante situaciones no anticipadas. Esto abre la puerta a la evolución hacia agentes BOA-5 genuinos.

6. CONCLUSIONES

La selección de herramientas en agentes de IA locales depende de la calidad de la Base Orientadora (BOA), no únicamente del tamaño del modelo.
Un Tool Descriptor Dinámico que lea el registro de habilidades y genere descripciones funcionales actúa como una BOA-2 efectiva, llevando la selección de herramientas de ensayo y error a receta exitosa.
Con la BOA-2 correctamente instalada, el agente local (Qwen 14B) exhibe comportamientos emergentes de BOA-4/5 ante situaciones no anticipadas.
Los logs operacionales del bot constituyen evidencia verificable con timestamps, y deben ser tratados como datos experimentales en la investigación de agentes de IA.
La jerarquía BOA de Talizina-Galperin es un framework operacional aplicable a la arquitectura de agentes autónomos, no solo a la formación de conceptos.

7. ARCHIVOS DE EVIDENCIA Y REFERENCIAS

Evidencias Directas

Archivo	Ubicación
Log completo del bot	`/Volumes/T7 Shield/AntiGravity/proyecto/logs/opengravity.log`
Documento de evidencias	`/Volumes/T7 Shield/AntiGravity/docs/EVIDENCIAS_LOGS_SESION_27_MARZO_2026.md`

Archivos del Sistema Modificados

Archivo	Cambio
`src/config.ts`	Modelo: llama3.1:8b → qwen2.5:14b
`src/tools/skill_manager.ts`	Tool Descriptor Dinámico desde manifest.json
`src/agent.ts`	`buildSystemPrompt()` + BIBLIOTECA DE SKILLS
`src/services/skillService.ts`	Filtro RESULTADO_SKILL + timeout 900s
`skills/manifest.json`	4 skills registradas y aprobadas

Transcripciones Generadas

Archivo	Contenido
`Transcripciones/2026-03-27_Chao_Antigravity_...md`	Video YouTube (33 KB)
`Transcripciones/2026-03-27_Video_by_elilopezmkt.md`	Video Instagram (1.8 KB)

Referencias Bibliográficas

Talizina, N.F. (1988). Psicología de la Enseñanza. Editorial Progreso, Moscú.
Galperin, P.Ya. (1959). Desarrollo de las investigaciones sobre la formación de acciones mentales.
Peguero, S. & Cursor (2026). Conclusiones del Período de Investigación Sept 2025 – Mar 2026. SPCiencia.
Peguero, S. & Cursor (2026). Base Matemática Completa de la Jerarquía BOA. SPCiencia.

Palabras clave: BOA, Talizina, Galperin, agentes de IA, selección de herramientas, tool selection, Tool Descriptor Dinámico, LLaMA, Qwen, OpenGravity, evidencia empírica, logs operacionales

Variable	Type	Description
LLM model	Independent	LLaMA 3.1 8B vs Qwen 2.5 14B
Tool Descriptor	Independent	Generic static vs Dynamic functional
System Prompt	Independent	No skills guide vs With library and guide
Selected tool	Dependent	Which tool call the model generates
Task success	Dependent	Whether transcription was completed

BOA level	Agent behavior	Example in logs
BOA-1	Trial and error. Wrong tools, invented paths, repeated errors	LLaMA 8B uses `read_file` with invented path
BOA-2	Follows Tool Descriptor recipe. Immediate correct selection	Qwen 14B selects `run_skill("ingesta_inteligente", URL)`
BOA-4/5	Builds autonomous strategy for unanticipated problem	Qwen 14B runs 6 search iterations without a recipe

File	Location
Full bot log	`/Volumes/T7 Shield/AntiGravity/proyecto/logs/opengravity.log`
Evidence document	`/Volumes/T7 Shield/AntiGravity/docs/EVIDENCIAS_LOGS_SESION_27_MARZO_2026.md`

File	Change
`src/config.ts`	Model: llama3.1:8b → qwen2.5:14b
`src/tools/skill_manager.ts`	Dynamic Tool Descriptor from manifest.json
`src/agent.ts`	`buildSystemPrompt()` + SKILLS LIBRARY
`src/services/skillService.ts`	RESULTADO_SKILL filter + 900s timeout
`skills/manifest.json`	4 registered and approved skills

File	Content
`Transcripciones/2026-03-27_Chao_Antigravity_...md`	YouTube video (33 KB)
`Transcripciones/2026-03-27_Video_by_elilopezmkt.md`	Instagram video (1.8 KB)

Переменная	Тип	Описание
Модель LLM	Независимая	LLaMA 3.1 8B vs Qwen 2.5 14B
Tool Descriptor	Независимая	Статический обобщённый vs Динамический функциональный
System Prompt	Независимая	Без руководства по skills vs С библиотекой и руководством
Выбранный инструмент	Зависимая	Какой tool call генерирует модель
Успех задачи	Зависимая	Выполнена ли транскрипция

Уровень BOA	Поведение агента	Пример в логах
BOA-1	Перебор. Неверные инструменты, выдуманные пути, повтор ошибок	LLaMA 8B: `read_file` с выдуманным путём
BOA-2	Следует рецепту Tool Descriptor. Сразу правильный выбор	Qwen 14B: `run_skill("ingesta_inteligente", URL)`
BOA-4/5	Строит автономную стратегию при непредвиденной проблеме	Qwen 14B: шесть итераций поиска без рецепта

Файл	Расположение
Полный лог бота	`/Volumes/T7 Shield/AntiGravity/proyecto/logs/opengravity.log`
Документ с доказательствами	`/Volumes/T7 Shield/AntiGravity/docs/EVIDENCIAS_LOGS_SESION_27_MARZO_2026.md`

Файл	Изменение
`src/config.ts`	Модель: llama3.1:8b → qwen2.5:14b
`src/tools/skill_manager.ts`	Динамический Tool Descriptor из manifest.json
`src/agent.ts`	`buildSystemPrompt()` + BIBLIOTECA DE SKILLS
`src/services/skillService.ts`	Фильтр RESULTADO_SKILL + timeout 900s
`skills/manifest.json`	4 зарегистрированные и одобренные skills

Файл	Содержание
`Transcripciones/2026-03-27_Chao_Antigravity_...md`	Видео YouTube (33 KB)
`Transcripciones/2026-03-27_Video_by_elilopezmkt.md`	Видео Instagram (1.8 KB)

De la Ceguera de Herramientas a la Selección Autónoma: Evidencia Empírica de la Jerarquía BOA en un Agente de IA Local

🙏 GLORIA A DIOS

📋 RESUMEN EJECUTIVO

1. INTRODUCCIÓN

1.1 El Problema de la Selección de Herramientas en Agentes Locales

1.2 La Hipótesis BOA

1.3 Contexto Experimental

2. METODOLOGÍA

2.1 Diseño del Experimento

2.2 Variables

2.3 Fuente de Evidencia

3. RESULTADOS

3.1 Configuración A: LLaMA 8B — Comportamiento BOA-1

3.2 Configuración B: Qwen 14B + Tool Descriptor Dinámico — Comportamiento BOA-2

3.3 Caso Emergente: Indicios de BOA-4/5

4. ANÁLISIS

4.1 El Tool Descriptor como BOA-2

4.2 Por Qué el Modelo Solo No Basta

4.3 La Jerarquía BOA en la Selección de Herramientas

4.4 La Caja Negra y la Observación Conductual

5. IMPLICACIONES

5.1 Para la Ingeniería de Agentes

5.2 Para la Teoría BOA

5.3 Para el Desarrollo de OpenGravity

6. CONCLUSIONES

7. ARCHIVOS DE EVIDENCIA Y REFERENCIAS

Evidencias Directas

Archivos del Sistema Modificados

Transcripciones Generadas

Referencias Bibliográficas

De la Ceguera de Herramientas a la Selección Autónoma: Evidencia Empírica de la Jerarquía BOA en un Agente de IA Local

🙏 GLORIA A DIOS

📋 RESUMEN EJECUTIVO

1. INTRODUCCIÓN

1.1 El Problema de la Selección de Herramientas en Agentes Locales

1.2 La Hipótesis BOA

1.3 Contexto Experimental

2. METODOLOGÍA

2.1 Diseño del Experimento

2.2 Variables

2.3 Fuente de Evidencia

3. RESULTADOS

3.1 Configuración A: LLaMA 8B — Comportamiento BOA-1

3.2 Configuración B: Qwen 14B + Tool Descriptor Dinámico — Comportamiento BOA-2

3.3 Caso Emergente: Indicios de BOA-4/5

4. ANÁLISIS

4.1 El Tool Descriptor como BOA-2

4.2 Por Qué el Modelo Solo No Basta

4.3 La Jerarquía BOA en la Selección de Herramientas

4.4 La Caja Negra y la Observación Conductual

5. IMPLICACIONES

5.1 Para la Ingeniería de Agentes

5.2 Para la Teoría BOA

5.3 Para el Desarrollo de OpenGravity

6. CONCLUSIONES

7. ARCHIVOS DE EVIDENCIA Y REFERENCIAS

Evidencias Directas

Archivos del Sistema Modificados

Transcripciones Generadas

Referencias Bibliográficas

From Tool Blindness to Autonomous Selection: Empirical Evidence of the BOA Hierarchy in a Local AI Agent

🙏 GLORY TO GOD

📋 EXECUTIVE SUMMARY

1. INTRODUCTION

1.1 The Tool-Selection Problem in Local Agents

1.2 The BOA Hypothesis

1.3 Experimental Context

2. METHODOLOGY

2.1 Experimental Design

2.2 Variables

2.3 Source of Evidence

3. RESULTS

3.1 Configuration A: LLaMA 8B — BOA-1 Behavior

3.2 Configuration B: Qwen 14B + Dynamic Tool Descriptor — BOA-2 Behavior

3.3 Emergent Case: Indications of BOA-4/5

4. ANALYSIS

4.1 The Tool Descriptor as BOA-2

4.2 Why the Model Alone Is Not Enough

4.3 The BOA Hierarchy in Tool Selection

4.4 The Black Box and Behavioral Observation