Thalx — La Historia del Pipeline

La idea

¿Qué es Thalx?

Imagina que tienes un podcast de 1 hora, un video de YouTube, o un PDF con contenido valioso. Thalx lo toma y en minutos genera 3 reels listos para publicar — YouTube Shorts, Instagram Reels y TikTok. Con voz, imágenes y captions. Sin editar nada manualmente.

Arquitectura

El pipeline de 8 pasos

Cada pieza de contenido pasa por estos 8 pasos automáticamente. Desde la URL hasta el reel publicado.

📥

Ingestion

yt-dlp + deno

🎙️

Transcripción

faster-whisper

🧠

Análisis

Claude haiku

✍️

Scripts

Claude sonnet

🗣️

Voz TTS

ElevenLabs

🎨

Ilustraciones

Gemini + Ken Burns

🎬

Render

FFmpeg + ASS

📤

Publicación

YouTube API

La transformación

De dónde venimos, a dónde llegamos

Antes (Remotion)

Gradientes oscuros sin contenido visual
Captions estáticos (párrafo completo de golpe)
Audio silencioso (-91 dB)
15 minutos de render por reel
Chrome headless se colgaba constantemente
Sin sincronización voz-captions
Un solo tono: "professional"

→

Ahora (FFmpeg)

Ilustraciones AI generadas por escena
Captions word-by-word sincronizados con la voz
Audio TTS real de ElevenLabs
30 segundos de render por reel
FFmpeg determinista, sin crashes
Timestamps de faster-whisper (cero drift)
3 perspectivas: educativa, controversial, storytelling

Números

En cifras

30x

Render más rápido

8

Pasos del pipeline

3

Perspectivas

$0

Costo de render

El camino

Cómo llegamos aquí

Día 1 — 18 Mar

Refactor del codebase + E2E

Eliminamos frontend legacy, desplegamos el backend (Redis Railway), refactoreamos 3 god files del backend, y corrimos el primer E2E completo: YouTube → render → publicado en YouTube.

Día 1 — 18 Mar

Remotion produce video... mediocre

El video renderizado era gradientes oscuros con texto estático. Sin footage real, sin audio, sin alma. "No es un video que capte la atención de nadie."

Día 1 — 18 Mar

Investigación: qué hace un reel viral

Analizamos OpenShorts (open source), el livestream de Google Gen Media, y las mejores prácticas de reels virales 2026. Conclusión: FFmpeg + ASS > Remotion.

Día 2 — 20 Mar

FFmpeg reemplaza Remotion

Nuevo render_ffmpeg.py: ASS subtitles word-by-word, hook text overlay, xfade transitions, mood color grading. Render 30x más rápido.

Día 2 — 20 Mar

TTS + Captions sincronizados

Descubrimos que el audio era silencioso (tablas de DB faltantes). Fix de TTS + transcripción del audio final con faster-whisper para timestamps absolutos. Zero drift.

Día 2 — 20 Mar

Source video como fondo

Primer intento: usar el video original de YouTube como fondo. Funciona pero tiene problemas de copyright y el presentador aparece recortado.

Día 2 — 20 Mar

AI Illustrations + Ken Burns

Solución final: Gemini genera ilustraciones que representan el mensaje de cada escena. Ken Burns les da movimiento. Sin copyright, 100% generado. El pipeline que funciona.

Tecnología

Stack del pipeline

Inteligencia

Claude haiku (análisis) + sonnet (scripts)
Gemini 3.1 Flash Image (ilustraciones)
faster-whisper (transcripción + word timestamps)

Producción

ElevenLabs (voz TTS, plan Creator)
FFmpeg (render, Ken Burns, ASS captions)
ASS (subtítulos karaoke word-by-word)

Infraestructura

FastAPI + arq (queue)
Supabase (DB + Storage + Auth)
Railway Redis (cola de jobs)
SvelteKit (frontend en Vercel)

El resultado

El video final

Thalx Pipeline v1 — AI Illustrations

Video generado automáticamente a partir de una charla TEDx sobre sedentarismo cognitivo.
Ilustraciones AI + Ken Burns + voz TTS + captions sincronizados.

Ver en YouTube →

Cómo construimos el pipeline de Thalx

¿Qué es Thalx?

El pipeline de 8 pasos

De dónde venimos, a dónde llegamos

Antes (Remotion)

Ahora (FFmpeg)

En cifras

Cómo llegamos aquí

Stack del pipeline

El video final

Thalx Pipeline v1 — AI Illustrations