Question 1

¿Cuál es la diferencia entre un modelo de difusión y una GAN para video?

Accepted Answer

Las GAN (redes generativas antagónicas) usan un par generador-discriminador entrenado en competencia. Pueden producir fotogramas nítidos, pero tienen dificultades con la coherencia temporal y la estabilidad del entrenamiento para video. Los modelos de difusión usan eliminación de ruido iterativa, que es más estable de entrenar y maneja de forma natural la consistencia temporal mediante mecanismos de atención. Para 2025, los modelos de difusión ya habían reemplazado en gran medida a las GAN como la arquitectura dominante para la generación de video.

Question 2

¿Cuántos pasos de eliminación de ruido usa un modelo de difusión de video?

Accepted Answer

Los modelos de difusión de video típicos usan entre 20 y 50 pasos de eliminación de ruido durante la inferencia. Más pasos suelen producir mayor calidad, pero toman más tiempo. Los planificadores avanzados (DDIM, DPM-Solver) reducen los pasos necesarios sin una pérdida importante de calidad. Algunos modelos usan destilación para lograr buenos resultados con tan solo 4 a 8 pasos, para una generación más rápida.

Question 3

¿Pueden los modelos de difusión de video generar videos largos?

Accepted Answer

Los modelos actuales generan de forma nativa clips de 4 a 15 segundos. Los videos más largos requieren técnicas como la extensión autorregresiva (generar segmentos superpuestos y unirlos), la generación jerárquica (planificar y luego rellenar) o procesos de varias etapas. La investigación en esta área es activa, pero a fecha de 2026 la mayoría de las plataformas comerciales se centran en clips de formato corto.

¿Qué es un modelo de difusión de video?

Cómo funciona

Casos de uso

Modelos de difusión de video en Kensa

Términos relacionados

Preguntas frecuentes

Mira los modelos de difusión en acción