Cómo construimos el pipeline de Thalx

La historia de pasar de "gradientes oscuros sin contenido" a "reels con ilustraciones AI, voz sincronizada y captions word-by-word" — en 2 días.

¿Qué es Thalx?

Imagina que tienes un podcast de 1 hora, un video de YouTube, o un PDF con contenido valioso. Thalx lo toma y en minutos genera 3 reels listos para publicar — YouTube Shorts, Instagram Reels y TikTok. Con voz, imágenes y captions. Sin editar nada manualmente.

El pipeline de 8 pasos

Cada pieza de contenido pasa por estos 8 pasos automáticamente. Desde la URL hasta el reel publicado.

📥
Ingestion
yt-dlp + deno
🎙️
Transcripción
faster-whisper
🧠
Análisis
Claude haiku
✍️
Scripts
Claude sonnet
🗣️
Voz TTS
ElevenLabs
🎨
Ilustraciones
Gemini + Ken Burns
🎬
Render
FFmpeg + ASS
📤
Publicación
YouTube API

De dónde venimos, a dónde llegamos

Antes (Remotion)

  • Gradientes oscuros sin contenido visual
  • Captions estáticos (párrafo completo de golpe)
  • Audio silencioso (-91 dB)
  • 15 minutos de render por reel
  • Chrome headless se colgaba constantemente
  • Sin sincronización voz-captions
  • Un solo tono: "professional"

Ahora (FFmpeg)

  • Ilustraciones AI generadas por escena
  • Captions word-by-word sincronizados con la voz
  • Audio TTS real de ElevenLabs
  • 30 segundos de render por reel
  • FFmpeg determinista, sin crashes
  • Timestamps de faster-whisper (cero drift)
  • 3 perspectivas: educativa, controversial, storytelling

En cifras

30x
Render más rápido
8
Pasos del pipeline
3
Perspectivas
$0
Costo de render

Cómo llegamos aquí

Día 1 — 18 Mar
Refactor del codebase + E2E
Eliminamos frontend legacy, desplegamos el backend (Redis Railway), refactoreamos 3 god files del backend, y corrimos el primer E2E completo: YouTube → render → publicado en YouTube.
Día 1 — 18 Mar
Remotion produce video... mediocre
El video renderizado era gradientes oscuros con texto estático. Sin footage real, sin audio, sin alma. "No es un video que capte la atención de nadie."
Día 1 — 18 Mar
Investigación: qué hace un reel viral
Analizamos OpenShorts (open source), el livestream de Google Gen Media, y las mejores prácticas de reels virales 2026. Conclusión: FFmpeg + ASS > Remotion.
Día 2 — 20 Mar
FFmpeg reemplaza Remotion
Nuevo render_ffmpeg.py: ASS subtitles word-by-word, hook text overlay, xfade transitions, mood color grading. Render 30x más rápido.
Día 2 — 20 Mar
TTS + Captions sincronizados
Descubrimos que el audio era silencioso (tablas de DB faltantes). Fix de TTS + transcripción del audio final con faster-whisper para timestamps absolutos. Zero drift.
Día 2 — 20 Mar
Source video como fondo
Primer intento: usar el video original de YouTube como fondo. Funciona pero tiene problemas de copyright y el presentador aparece recortado.
Día 2 — 20 Mar
AI Illustrations + Ken Burns
Solución final: Gemini genera ilustraciones que representan el mensaje de cada escena. Ken Burns les da movimiento. Sin copyright, 100% generado. El pipeline que funciona.

Stack del pipeline

Inteligencia
Claude haiku (análisis) + sonnet (scripts)
Gemini 3.1 Flash Image (ilustraciones)
faster-whisper (transcripción + word timestamps)
Producción
ElevenLabs (voz TTS, plan Creator)
FFmpeg (render, Ken Burns, ASS captions)
ASS (subtítulos karaoke word-by-word)
Infraestructura
FastAPI + arq (queue)
Supabase (DB + Storage + Auth)
Railway Redis (cola de jobs)
SvelteKit (frontend en Vercel)

El video final

Thalx Pipeline v1 — AI Illustrations

Video generado automáticamente a partir de una charla TEDx sobre sedentarismo cognitivo.
Ilustraciones AI + Ken Burns + voz TTS + captions sincronizados.

Ver en YouTube →