🎬 🧠 🎨 🗣️ 📱 🎵 🚀

¿Cómo una inteligencia artificial convierte un video en un reel?

Te lo explicamos paso a paso. Cada paso tiene un "superpoder" tecnológico detrás. Vamos a conocerlos todos.

Imagina esto: tienes un video largo de YouTube — una charla de 6 minutos sobre inteligencia artificial. Tú quieres convertirlo en un reel corto de 1 minuto con voz, imágenes bonitas y subtítulos que aparecen palabra por palabra (como los que ves en TikTok o Instagram).

Hacerlo a mano te tomaría 2-3 horas con herramientas como CapCut. Nuestra IA lo hace en menos de 5 minutos. ¿Cómo? Con un equipo de 8 "robots" que trabajan uno después del otro. Vamos a conocerlos.

🔧 Los 8 pasos del pipeline

La palabra "pipeline" viene del inglés y significa "tubería". Como una tubería por donde pasa agua, aquí pasa tu video — y en cada estación se transforma un poco más hasta salir como un reel listo.

📥

Paso 1: Descarga yt-dlp deno

El robot descarga el video y el audio de YouTube.
Es como cuando le dices a alguien "pásame ese video" — pero el robot lo hace en segundos. Usa un programa llamado yt-dlp que sabe hablar con YouTube, y deno que resuelve los acertijos de seguridad que YouTube pone para verificar que no eres un bot. Irónico, ¿no? Un robot resolviendo pruebas anti-robot.
🎙️

Paso 2: Transcripción faster-whisper

Convierte la voz del video en texto escrito.
¿Sabes cuando le hablas a tu teléfono y él escribe lo que dijiste? Esto es lo mismo pero mucho más preciso. Whisper es un modelo de IA creado por OpenAI que "escucha" el audio y escribe cada palabra con el momento exacto en que se dijo — hasta la centésima de segundo. Por eso los subtítulos después salen sincronizados con la voz.
🧠

Paso 3: Análisis Claude haiku

La IA lee la transcripción y entiende de qué trata.
Imagina que le das un libro a alguien muy listo y le pides: "léelo y dime las 5 ideas principales, las frases más impactantes, y qué emociones transmite." Eso hace Claude (una IA de Anthropic). El modelo "haiku" es la versión rápida — lee todo en segundos y extrae: el mensaje central, las frases clave, las palabras que sirven para buscar imágenes, y el "mood" (si el tono es urgente, calmado, divertido, etc.).
✍️

Paso 4: Guión Claude sonnet

Escribe el guión del reel: qué se dice, en qué orden, con qué tono.
Ahora otra IA (Claude "sonnet", la versión más creativa) actúa como un guionista de cine. Toma el análisis y escribe un guión dividido en "escenas" — cada escena dice: qué narrar, qué emoción transmitir, qué imagen debería verse de fondo, y cuánto debe durar. También puedes elegir 3 perspectivas diferentes: educativa ("5 datos clave..."), controversial ("nadie quiere escuchar esto pero..."), o storytelling ("imagina que estás en una sala con expertos...").
🗣️

Paso 5: Voz ElevenLabs

Convierte el guión escrito en una voz que suena humana.
¿Has escuchado a Siri o Alexa? Suenan un poco robóticas. ElevenLabs es diferente — genera voces que suenan tan naturales que no sabrías si es una persona real o una IA. Le mandamos el texto de cada escena y nos devuelve un archivo de audio con la narración. Es como tener un locutor profesional disponible 24/7 que habla cualquier idioma.
🎨

Paso 6: Ilustraciones Gemini Ken Burns

Genera una imagen original para cada escena y le da movimiento.
Este es el paso más visual. Gemini (la IA de Google) recibe la descripción de cada escena — por ejemplo "un cerebro con conexiones neuronales brillantes" — y dibuja una imagen desde cero. No busca en Google Imágenes: la inventa. Después, el efecto Ken Burns le da vida a esa imagen con un zoom lento o un paneo suave, para que no se sienta como un slideshow estático sino como un video real.
🎬

Paso 7: Render FFmpeg ASS

Junta todo: video + audio + subtítulos → el reel final.
Aquí es donde todo se ensambla — como armar un sándwich con todas las capas. FFmpeg es un programa legendario (existe desde 2000) que sabe manipular video como ningún otro. Toma las imágenes animadas, les pone el audio de la voz encima, y "quema" los subtítulos directamente en el video usando el formato ASS — que permite efectos como el karaoke: cada palabra cambia de color exactamente cuando la voz la pronuncia. El resultado es un archivo MP4 listo para redes.
📤

Paso 8: Publicación YouTube API Supabase

Sube el reel a YouTube, Instagram o TikTok automáticamente.
El video terminado se guarda en Supabase (una base de datos en la nube) y se publica directamente en YouTube usando su API (una puerta trasera oficial que YouTube da a los programadores para subir videos sin abrir el navegador). Todo automático — tú pones la URL del video original y minutos después el reel ya está publicado.

🔄 Antes vs Después

Al principio el sistema generaba videos feos. Después de muchas mejoras, esto cambió:

Antes
  • Fondo oscuro sin ninguna imagen
  • Subtítulos planos (todo el texto de golpe)
  • Audio en silencio
  • 15 minutos para generar un reel
  • Se colgaba constantemente
Ahora
  • Ilustraciones IA para cada escena
  • Subtítulos palabra por palabra
  • Voz profesional sincronizada
  • 30 segundos para generar un reel
  • Funciona siempre, sin fallos

🤯 Datos curiosos

6
IAs diferentes trabajan juntas en cada reel
170
palabras se sincronizan con precisión de centésimas de segundo
$0
cuesta el render del video (FFmpeg es gratis y open source)

¿Sabías que... el programa que junta el video final (FFmpeg) fue creado en el año 2000 por un programador francés llamado Fabrice Bellard? Tiene más de 20 años y sigue siendo el estándar mundial. Netflix, YouTube, Instagram — todos lo usan por dentro. Y es completamente gratis.

¿Y que... los subtítulos usan un formato llamado ASS (Advanced SubStation Alpha) que se inventó en 1998 para los fansubs de anime japonés? Esos fans necesitaban subtítulos con colores, efectos karaoke y posiciones exactas — y crearon el formato más poderoso de subtítulos que existe. Hoy lo usamos para hacer que cada palabra brille cuando la voz la pronuncia.

🤖 El equipo de IAs

Cada IA tiene un trabajo específico. Es como un equipo de fútbol donde cada jugador tiene su posición:

🧠 Claude (Anthropic)
El cerebro — analiza y escribe los guiones

🎨 Gemini (Google)
El artista — dibuja las ilustraciones

🗣️ ElevenLabs
La voz — narra el guión como un humano

🎙️ Whisper (OpenAI)
El oído — escucha y anota cada palabra

🎬 FFmpeg (Open Source)
El editor — ensambla el video final

📤 YouTube API (Google)
El publicista — sube el reel a internet

🎯 El resultado

✨ Mira el reel que generó Thalx

A partir de una charla TEDx de 6 minutos sobre cómo la IA puede afectar nuestro cerebro, el pipeline generó este reel con ilustraciones originales, voz y subtítulos sincronizados.

▶ Ver en YouTube