¿Qué es un modelo de difusión de video?

Un modelo de difusión de video es un tipo de red neuronal generativa que crea video partiendo de ruido aleatorio y eliminando ese ruido de forma iterativa (eliminación de ruido) a lo largo de muchos pasos, guiado por una señal de condicionamiento como un prompt de texto o una imagen, hasta que emergen fotogramas de video coherentes. Es la arquitectura central detrás de modelos como Sora 2, Veo 3.1, Kling 3 y Wan 2.6.

Cómo funciona

El proceso de difusión tiene dos fases. Durante el entrenamiento, el modelo aprende a revertir un proceso de adición de ruido: dado un video real, añade ruido gaussiano en niveles crecientes y entrena una red neuronal para predecir y eliminar ese ruido en cada nivel. Después del entrenamiento, el modelo puede partir de ruido puro y eliminarlo paso a paso hasta obtener un video realista.

Los modelos de difusión de video modernos operan en un espacio latente comprimido en lugar de hacerlo directamente sobre los píxeles. Un autocodificador variacional (VAE) primero codifica los fotogramas del video en una representación latente de menor dimensión, reduciendo el costo computacional de 8 a 64 veces. El proceso de difusión se ejecuta por completo en este espacio latente, y el decodificador del VAE convierte el latente final de nuevo en video de píxeles.

La columna vertebral de eliminación de ruido en los modelos más avanzados suele ser un Transformer de Difusión (DiT). A diferencia de las arquitecturas U-Net más antiguas, el DiT trata el video como una secuencia de parches espaciotemporales y aplica autoatención de múltiples cabezas tanto en las dimensiones espaciales como temporales. Esto permite que el modelo mantenga la consistencia entre fotogramas: los objetos conservan su forma, la iluminación se mantiene coherente y el movimiento fluye de forma natural.

Las señales de condicionamiento (prompts de texto, imágenes) se inyectan a través de capas de atención cruzada. Un codificador de texto (CLIP o T5) convierte el prompt en embeddings que guían la eliminación de ruido en cada paso. La guía sin clasificador amplifica la influencia del condicionamiento, produciendo resultados que se ajustan más al prompt a costa de cierta diversidad.

Casos de uso

  • 1Generación de texto a video — La aplicación principal. Modelos como Sora 2 y Veo 3.1 usan la difusión de video para generar clips a partir de descripciones de texto.
  • 2Animación de imágenes — El condicionamiento sobre una imagen de origen produce una salida de imagen a video en la que el modelo de difusión genera movimiento plausible a partir de un punto de partida estático.
  • 3Superresolución de video — Los modelos de difusión pueden escalar video de baja resolución tratando la entrada de baja resolución como una versión con ruido del objetivo de alta resolución.
  • 4Interpolación de fotogramas — Generar fotogramas intermedios entre dos fotogramas clave para aumentar la tasa de fotogramas o crear efectos de cámara lenta.

Modelos de difusión de video en Kensa

Kensa ofrece acceso a cinco modelos de difusión de video, cada uno con diferentes arquitecturas y fortalezas. Sora 2 usa una columna vertebral DiT con parches espaciotemporales para lograr un realismo cinematográfico. Veo 3.1 se optimiza para la velocidad con menos pasos de eliminación de ruido. Kling 3 se especializa en el movimiento de personajes mediante un modelado temporal mejorado.

No necesitas entender la arquitectura subyacente para usar estos modelos: Kensa abstrae la complejidad. Pero entender los modelos de difusión te ayuda a apreciar por qué distintos modelos producen distintos resultados. Pruébalos en el generador de video.

Términos relacionados

Preguntas frecuentes

¿Cuál es la diferencia entre un modelo de difusión y una GAN para video?+
Las GAN (redes generativas antagónicas) usan un par generador-discriminador entrenado en competencia. Pueden producir fotogramas nítidos, pero tienen dificultades con la coherencia temporal y la estabilidad del entrenamiento para video. Los modelos de difusión usan eliminación de ruido iterativa, que es más estable de entrenar y maneja de forma natural la consistencia temporal mediante mecanismos de atención. Para 2025, los modelos de difusión ya habían reemplazado en gran medida a las GAN como la arquitectura dominante para la generación de video.
¿Cuántos pasos de eliminación de ruido usa un modelo de difusión de video?+
Los modelos de difusión de video típicos usan entre 20 y 50 pasos de eliminación de ruido durante la inferencia. Más pasos suelen producir mayor calidad, pero toman más tiempo. Los planificadores avanzados (DDIM, DPM-Solver) reducen los pasos necesarios sin una pérdida importante de calidad. Algunos modelos usan destilación para lograr buenos resultados con tan solo 4 a 8 pasos, para una generación más rápida.
¿Pueden los modelos de difusión de video generar videos largos?+
Los modelos actuales generan de forma nativa clips de 4 a 15 segundos. Los videos más largos requieren técnicas como la extensión autorregresiva (generar segmentos superpuestos y unirlos), la generación jerárquica (planificar y luego rellenar) o procesos de varias etapas. La investigación en esta área es activa, pero a fecha de 2026 la mayoría de las plataformas comerciales se centran en clips de formato corto.

Mira los modelos de difusión en acción

Prueba Sora 2, Veo 3.1, Kling 3 y más en Kensa. Créditos gratis, sin necesidad de tarjeta de crédito.

Comenzar a generar
What is a Video Diffusion Model? | AI Video Glossary | Kensa