Agent Squad · Tech Radar 2026-05-18 · Apify research

The Workaround Stack +
cómo lo construimos hoy

SubQ propone que su 12M context elimina las capas intermedias (Vector DB, Chunking, RAG). Hoy estamos lejos de esa promesa. Análisis de qué tecnologías 2026 son las ganadoras para implementar cada capa en Agent Squad con InsForge + Vercel AI SDK ya pinneados.

5
Capas del stack
7
Tecnologías ganadoras
4
Fases implementación
5
Casos uso Agent Squad
3-5w
Effort total
01

The Workaround Stack

Decodificación de la imagen de SubQ
05
Orchestration layer
your product
04
RAG pipeline
routing + retries
03
Chunking logic
query + rerank
02
Vector DB
split + embed
01
Model
8k – 128k context window

"What teams build when the model can't hold full context"

02

Tecnologías ganadoras 2026

Apify · últimos 30-60 días
L1 Model · LLM base benchlm.ai 2026-04-24
ModelContext (real)FortalezaCostoVeredicto
Gemini 3.1 Pro 2M nativos · degrada >500K Long-context + multimodal Medio Watch
Claude Opus 4.7 Adaptive 200K + context caching Agentic, code, planning Alto Architect
Claude Sonnet 4.6 200K + caching Balanced speed/cost Medio Dev
GPT-5.5 1M Reasoning Alto No usar
DeepSeek V4 Pro 200K Open weights, cost bajo Muy bajo Watch
SubQ 1M-Preview 1M prod · 12M research Anti-RAG, linear scaling Private beta Q3 2026
L2 Vector DB · embeddings storage digitalapplied.com 2026-04-28 · firecrawl 2026-02-18
DBTipoMejor paraVeredicto Agent Squad
pgvector Postgres extension Teams ya en Postgres InsForge usa esto
Qdrant Rust standalone Speed leader open-source Innecesario
Pinecone Managed cloud Enterprise zero-ops Otra dep
Weaviate Open-source modular Hybrid search nativo Overhead
Milvus Enterprise heavyweight Escala >100M vectors Overkill
LanceDB Embedded Edge, mobile, offline Watch · futuro
Turbopuffer Object storage backed Multi-tenant SaaS Watch · 2027
L2b Embedding models pecollective 2026-04-06 · milvus.io blog 2026-03-25
ModelDimsFortaleza$ / 1M tokensVeredicto
OpenAI text-embedding-3-large 3072 Best overall $0.13 Fallback
Cohere embed-v4 1536 Best multilingual + matryoshka $0.10 Si i18n
Voyage AI voyage-3.5-large 1024 ★ Best for code & technical $0.18 Pick
Jina v4 2048 Multimodal (text+image) $0.05 Si multimodal
Qwen3 embeddings 1024 Open-source strong Self-host No infra
Gemini text-embedding 768 Buen ratio cost/quality $0.02 Backup cost
L3 Chunking + Reranking iternal.ai 2026-01-12 · Anthropic Contextual Retrieval
TechniqueTipoGanancia / costoVeredicto
Contextual Retrieval (Anthropic) Chunking -49% retrieval failures · header sintetizado Pick
Late chunking (Jina) Chunking Preserva context entre chunks Alt
LlamaIndex SemanticSplitterNodeParser Chunking Split por similitud, no tokens fijos Pick
Agentic chunking Chunking LLM decide splits · caro Premature
Cohere Rerank v3.5 Reranking ~150ms · $1/1K queries Pick
Jina reranker v3 Reranking ~120ms · $0.5/1K queries Backup
ColBERT v2 / late-interaction Reranking Top accuracy en research Self-host
L4 RAG framework · routing + retries aimultiple.com 2026-01-29 · alphacorp.ai
FrameworkStrengthLangVeredicto
LlamaIndex.TS 100+ data loaders, mejor data ingest TypeScript Pick para data
LangChain / LangGraph 126K stars, graph orchestration Python + JS Overhead
DSPy (Stanford) Programming-first, prompts como código Python Premature
Haystack Hugging Face native, enterprise Python Wrong lang
RAGFlow Full-stack open-source con UI Python No self-host
Pathway Streaming RAG (real-time) Python Si live data
L5 Agent orchestration · your product gurusup.com 2026-05-02 · alicelabs.ai 2026-04-15
FrameworkStars / madurezLangVeredicto Agent Squad
LangGraph 126K · graph-based Python + JS Overhead para nuestro flow
Vercel AI SDK 6.0 ToolLoopAgent Edge-native, provider-agnostic JS/TS Pick (apps/api)
Claude Agent SDK 0.1.50 Anthropic-native, modelo mix Python Miles (lateral)
OpenAI Agents SDK Nuevo 2026 · production-ready Python + JS Vendor lock
CrewAI 80K+ · role-based Python Wrong lang
AutoGen / AG2 (Microsoft) Rebuilt 2026, conversational Python Wrong lang
Mastra Trending TS-first JS/TS Watch · 2027
Google ADK / Pydantic AI Nuevo 2026 Python Wrong lang
ALT Context caching · saltarse el workaround Anthropic / Gemini / OpenAI 2026
ProviderDiscountTTLVeredicto
Anthropic Claude 90% off en input cached 5 min - 1 hora Critical · usar agresivo
Gemini 75% off hasta 1 hora Si migramos
OpenAI Auto en GPT-5.5 (implícito) Sin tier exposed No control
03

Mapeo a Agent Squad

qué tenemos · qué falta
CapaTenemos hoyFaltaStatus
L1 · Model Claude Sonnet/Opus via SDK Context caching agresivo ✓ Cubierto
L2 · Vector DB InsForge vector (pgvector) Schema + HNSW index ✓ Disponible
L2b · Embeddings Voyage 3.5 large API key + ingestion ○ Por hacer
L3 · Chunking + Rerank LlamaIndex semantic + Cohere Rerank ○ Por hacer
L4 · RAG pipeline LlamaIndex.TS + custom router ○ Por hacer
L5 · Orchestration Vercel AI SDK 6 + Claude Agent SDK Tools custom InsForge ✓ Cubierto
04

Stack recomendado

arrancar fase 2 InsForge Miles
L5 · ORCH
Vercel AI SDK 6.0 ToolLoopAgent en apps/api + Claude Agent SDK 0.1.50 (Miles lateral, orquestador de Telegram)
L4 · RAG
LlamaIndex.TS para data loaders (PDF, MD, TXT, JSON) + custom router en TS (3-5 cases) · retries con exponential backoff · sin LangGraph
L3 · CHUNK
LlamaIndex SemanticSplitterNodeParser + Contextual Retrieval (Anthropic) + Cohere Rerank v3.5 (top-K → top-5) · Haiku 4.5 para sintetizar headers
L2 · VEC
InsForge vector (pgvector con HNSW index, m=16, ef=64) + Voyage AI voyage-3.5-large (1024 dims, code-strong)
L1 · LLM
Claude Opus 4.7 (Architect, 200K + cache) · Sonnet 4.6 (Dev, 200K + cache) · Haiku 4.5 (helpers) + Anthropic context caching agresivo (90% off input cached)

Lo que NO necesitamos: LangGraph (overhead) · LangChain (vendor lock) · DSPy (premature) · Pinecone/Weaviate/Qdrant (InsForge cubre) · OpenAI Agents SDK (vendor lock).

05

Plan de implementación · 4 fases

después de fase 1 InsForge auth (Miles activo)
A
Embeddings + Vector
1-2 semanas
  • Architect: schema InsForge office_documents (id, user_id, content, embedding, source_type) + HNSW index
  • Dev: ingest endpoint en apps/api — file → chunk semántico → Voyage embed → InsForge insert
  • Test: subir 1 brief técnico, recuperarlo con query "qué objetivo tiene el usuario"
B
Contextual + Rerank
1 semana
  • Architect: añadir columna chunk_context con header sintetizado por Haiku 4.5 ($0.25/M, casi gratis)
  • Dev: tool searchOfficeDocuments(query) — embed query → top-20 cosine → Cohere Rerank → top-5
  • Bench: medir recall en 10 queries de test antes/después rerank
C
Tool integration
1 semana
  • Dev: registrar tool en Vercel AI SDK ToolLoopAgent con inputSchema Zod
  • Test E2E: agente del usuario recibe pregunta → llama searchOfficeDocuments → responde con context
  • qa_worker: visual review + Playwright E2E del flujo end-to-end
D
Context caching
3-5 días
  • Dev: wirear cache_control: { type: 'ephemeral' } en system prompt + estado oficina
  • Bench: medir cost/turn antes vs después · target 70%+ reducción
  • Telemetry: trackear hit rate del cache en logs (target >80%)
06

Casos de uso concretos en Agent Squad

dónde vive cada capa
L2 + L2b · Vector + Embeddings
Office memory

User sube briefs/PDFs a su oficina → chunked + embedded → cualquier agente los recupera. Tabla office_documents + columna embedding vector(1024).

L3 · Chunking + Rerank
Workflow Library semantic search

SKILL.md descriptions embedded → "encontrá workflow para outreach B2B" → top-5 ranked. Sustituye el filter chips actual cuando catálogo >30 workflows.

L3 · Chunking + Rerank
Discover Offices similar matching

Embeddings del perfil de cada oficina pública → recomendación "Similar a tu squad" sin hardcodear flags. Mejora insight viral #6 (Visit other rooms).

L4 · RAG pipeline
Activity historical reasoning

Eventos pasados embedded → "qué workflows fallaron más esta semana?" sin RAG genérico — context específico de su oficina, no del mundo.

L1 · Context caching
System prompt cacheado por user

System prompt + estado oficina cached por user. 90% cost reduction en cada turn. Crítico para sustainability del modelo $/user-mes.

L5 · Orchestration
Tool Loop: Thalx ejecución

Vercel AI SDK ToolLoopAgent ejecuta el workflow Thalx llamando: loadSkill, searchOfficeDocuments, installWorkflow, etc.

07

Veredicto

para Roberto · decisión final
stack recomendado · arranque cuando Miles termine fase 1
Construir el workaround stack con tecnologías ganadoras 2026, sin esperar SubQ.

SubQ y Gemini 3 con 2M context son el futuro pero no están en producción usable hoy (private beta SubQ, degrada Gemini). Mientras tanto, Anthropic context caching es la mejor mitigación del costo y InsForge pgvector + Voyage 3.5 large + Cohere Rerank forman un stack RAG modesto, barato y bien calibrado para Agent Squad.

El plan de 4 fases entrega valor incremental en 3-5 semanas: Fase A habilita memoria persistente de oficina, B sube precision con rerank, C wirea al agente, D tritura costo con caching. Cada fase shipea independiente.

Cuando SubQ shippee GA con benchmarks third-party verificados (Q3 2026 optimista), el stack se simplifica: las capas 2-4 desaparecen y queda solo L1 + L5. Pero hasta entonces, este es el camino.