¿Qué es un modelo de difusión de video?
Un modelo de difusión de video es un tipo de red neuronal generativa que crea video partiendo de ruido aleatorio y eliminando ese ruido de forma iterativa (eliminación de ruido) a lo largo de muchos pasos, guiado por una señal de condicionamiento como un prompt de texto o una imagen, hasta que emergen fotogramas de video coherentes. Es la arquitectura central detrás de modelos como Sora 2, Veo 3.1, Kling 3 y Wan 2.6.
Cómo funciona
El proceso de difusión tiene dos fases. Durante el entrenamiento, el modelo aprende a revertir un proceso de adición de ruido: dado un video real, añade ruido gaussiano en niveles crecientes y entrena una red neuronal para predecir y eliminar ese ruido en cada nivel. Después del entrenamiento, el modelo puede partir de ruido puro y eliminarlo paso a paso hasta obtener un video realista.
Los modelos de difusión de video modernos operan en un espacio latente comprimido en lugar de hacerlo directamente sobre los píxeles. Un autocodificador variacional (VAE) primero codifica los fotogramas del video en una representación latente de menor dimensión, reduciendo el costo computacional de 8 a 64 veces. El proceso de difusión se ejecuta por completo en este espacio latente, y el decodificador del VAE convierte el latente final de nuevo en video de píxeles.
La columna vertebral de eliminación de ruido en los modelos más avanzados suele ser un Transformer de Difusión (DiT). A diferencia de las arquitecturas U-Net más antiguas, el DiT trata el video como una secuencia de parches espaciotemporales y aplica autoatención de múltiples cabezas tanto en las dimensiones espaciales como temporales. Esto permite que el modelo mantenga la consistencia entre fotogramas: los objetos conservan su forma, la iluminación se mantiene coherente y el movimiento fluye de forma natural.
Las señales de condicionamiento (prompts de texto, imágenes) se inyectan a través de capas de atención cruzada. Un codificador de texto (CLIP o T5) convierte el prompt en embeddings que guían la eliminación de ruido en cada paso. La guía sin clasificador amplifica la influencia del condicionamiento, produciendo resultados que se ajustan más al prompt a costa de cierta diversidad.
Casos de uso
- 1Generación de texto a video — La aplicación principal. Modelos como Sora 2 y Veo 3.1 usan la difusión de video para generar clips a partir de descripciones de texto.
- 2Animación de imágenes — El condicionamiento sobre una imagen de origen produce una salida de imagen a video en la que el modelo de difusión genera movimiento plausible a partir de un punto de partida estático.
- 3Superresolución de video — Los modelos de difusión pueden escalar video de baja resolución tratando la entrada de baja resolución como una versión con ruido del objetivo de alta resolución.
- 4Interpolación de fotogramas — Generar fotogramas intermedios entre dos fotogramas clave para aumentar la tasa de fotogramas o crear efectos de cámara lenta.
Modelos de difusión de video en Kensa
Kensa ofrece acceso a cinco modelos de difusión de video, cada uno con diferentes arquitecturas y fortalezas. Sora 2 usa una columna vertebral DiT con parches espaciotemporales para lograr un realismo cinematográfico. Veo 3.1 se optimiza para la velocidad con menos pasos de eliminación de ruido. Kling 3 se especializa en el movimiento de personajes mediante un modelado temporal mejorado.
No necesitas entender la arquitectura subyacente para usar estos modelos: Kensa abstrae la complejidad. Pero entender los modelos de difusión te ayuda a apreciar por qué distintos modelos producen distintos resultados. Pruébalos en el generador de video.
Términos relacionados
Preguntas frecuentes
¿Cuál es la diferencia entre un modelo de difusión y una GAN para video?+
¿Cuántos pasos de eliminación de ruido usa un modelo de difusión de video?+
¿Pueden los modelos de difusión de video generar videos largos?+
Mira los modelos de difusión en acción
Prueba Sora 2, Veo 3.1, Kling 3 y más en Kensa. Créditos gratis, sin necesidad de tarjeta de crédito.
Comenzar a generar