Les approches de Super Résolution vidéo ont donné des résultats remarquables depuis leur apparition. Le 18 avril 2024, Adobe a annoncé VideoGigaGAN, suscitant un vif intérêt. Adobe affirme que ce modèle VSR génératif surpasse les méthodes précédentes d'upscaling vidéo, en générant des vidéos avec des détails riches sans artefacts d'IA.
VideoGigaGAN révolutionne-t-il la Super Résolution IA ? Comment l'utiliser ? Examinons de plus près.
VideoGigaGAN : upscaling vidéo 8x
VideoGigaGAN est un modèle IA de pointe développé par Adobe Research pour la Super Résolution Vidéo (VSR). Basé sur GigaGAN d'Adobe, un upsampler d'image performant, il vise à transposer l'amélioration des détails au niveau de l'image dans le domaine vidéo.
Le défi principal de l'upscaling vidéo est d'ajouter des détails réalistes tout en préservant la fluidité et la cohérence temporelle. Selon le projet de recherche, VideoGigaGAN peut transformer des vidéos floues de basse résolution en augmentant leur résolution jusqu'à 8x, générant des détails riches et éclatants sans scintillement ni distorsions entre les images.
Caractéristiques clés et innovations
Amélioration exceptionnelle des détails
VideoGigaGAN peut notamment upscaler une vidéo jusqu'à 8 fois sa résolution d'origine, en ajoutant des détails plausibles à haute fréquence qui semblent naturels.
La page web du projet présente un clip de démonstration montrant des fourmis rampant sur de la terre dans une vidéo de très basse résolution. Grâce à l'upscaling 8x de VideoGigaGAN, ce clip révèle les formes des fourmis et la texture du sol. Là où les petits objets deviendraient flous, le modèle apporte une clarté saisissante : les pattes des fourmis et leurs contours distincts deviennent visibles, alors que l'original se limitait à quelques pixels.
Stabilité temporelle élevée
Le modèle excelle dans l'équilibre entre détail et cohérence, avec un minimum de scintillement, d'images fantômes ou de saccades.
Lors de la démonstration, une vidéo de 128x128 a été transformée en une séquence HD de 1024x1024. La peau d'une personne révèle des pores et une texture naturelle, tandis que les cheveux individuels (sourcils, poils faciaux) deviennent nettement visibles. Les détails ajoutés semblent organiques, loin d'un effet CGI évident, rendant l'intervention de l'IA presque indétectable. Surtout, lorsque le visage bouge, ces détails fins restent cohérents, créant l'illusion d'une véritable vidéo haute résolution.
Upscaling générative rapide
L'architecture du générateur de VideoGigaGAN, héritée de GigaGAN, produit des résultats en une seule passe, contrairement aux upscalers basés sur la diffusion, qui nécessitent un raffinement itératif lent. Cela rend le processus beaucoup plus rapide à l'inférence.
Ainsi, VideoGigaGAN peut upscaler des images en temps réel ou quasi réel sur du matériel moderne. Selon le document de recherche, malgré sa taille importante, le modèle offre des vitesses d'inférence compétitives par rapport aux modèles à propagation directe antérieurs. Cette efficacité ouvre la voie à des applications pratiques, comme l'amélioration vidéo en temps réel ou l'intégration dans des logiciels de montage sans délais de rendu excessifs.
Limitations
Aperçu de recherche uniquement
Le principal obstacle est que VideoGigaGAN n'est pas encore accessible au public. En mai 2025, il demeure un projet de laboratoire. Adobe l'a présenté comme un prototype de recherche, et bien que des rumeurs évoquent une possible intégration dans Adobe Premiere Pro ou After Effects, rien ne garantit une sortie grand public.
Défis avec les vidéos longues
VideoGigaGAN peine à traiter des vidéos très longues. Le document indique une baisse de performance au-delà d'environ 200 images (8 à 10 secondes de séquence). Sur de longues durées, de petites erreurs s'accumulent, et le guidage par flux optique peut devenir imprécis, entraînant des détails mal propagés ou du scintillement.
En somme, les techniques de cohérence temporelle du modèle ont une fenêtre de « mémoire » limitée, ce qui le rend moins adapté pour upscaler un film entier en une seule fois. Il excelle sur des clips courts ou en traitant les longues vidéos par segments, ce qui pourrait expliquer son absence sur le marché.
Difficultés avec les détails minuscules
Comme de nombreux logiciels pour améliorer la qualité d'une vidéo avec l'IA, VideoGigaGAN struggle à reconstruire des détails très fins fortement absents dans l'entrée basse résolution. Si une image vidéo manque d'informations sur un petit objet, l'IA ne peut que deviner, souvent de manière imparfaite, ce qui peut produire des artefacts étranges.
Par exemple, dans une démonstration, les dents d'une fille sont devenues des « dents déformées par l'IA » après l'upscaling, paraissant anormalement altérées. Si les grandes textures et détails généraux sont bien restitués, les détails sub-pixelliques peuvent générer du texte incohérent ou des motifs bizarres.
Détails hallucinés et artefacts potentiels
Les détails ultra-nets de VideoGigaGAN ne sont pas « réels », mais inventés par l'IA à partir de ses données d'entraînement. C'est souvent un atout, mais un inconvénient lorsque l'authenticité prime. Par exemple, utiliser VideoGigaGAN sur des vidéos de surveillance ou médico-légales pourrait altérer des preuves visuelles. Même dans un contexte créatif, il existe un léger risque d'artefacts, comme une peau trop lisse ou des textures excessivement parfaites.
Ce problème est commun à tous les modèles IA. Bien que VideoGigaGAN prétende éviter les « bizarreries de l'IA », sa sortie reste une estimation, non une restauration parfaite des pixels perdus.
Comment utiliser VideoGigaGAN
Pour l'instant, VideoGigaGAN n'est pas directement utilisable. Adobe l'a présenté comme une démo technologique, pas un produit. Il n'est pas intégré aux filtres neuronaux de Photoshop, ni à Premiere, ni disponible via les fonctionnalités bêta d'Adobe, sans garantie d'une future commercialisation.
Alternative à VideoGigaGAN
En attendant que VideoGigaGAN soit accessible, les utilisateurs souhaitant upscaler ou améliorer des vidéos peuvent se tourner vers des outils existants. Une option conviviale et performante est VideoProc Converter AI, un logiciel de traitement vidéo tout-en-un doté d'un upscaler et d'un améliorateur alimenté par IA. Contrairement à VideoGigaGAN, VideoProc est un produit mature, téléchargeable et utilisable immédiatement sur PC ou Mac.
VideoProc Converter AI intègre un module de Super Résolution. Il exploite plusieurs modèles IA pour améliorer la résolution, la netteté et la qualité globale des vidéos. Cet upscaler vidéo IA peut augmenter la résolution jusqu'à 4x (400 %), transformant par exemple une vidéo 480p en 1080p ou 4K, tout en préservant et en enrichissant les détails. Ses modèles IA sont conçus pour optimiser les textures et réduire les artefacts, offrant des vidéos plus nettes avec moins de bruit. Le logiciel propose aussi des fonctionnalités comme le débruitage, le défloutage, la colorisation et l'Interpolation d'Images, le tout dans une interface intuitive ne nécessitant aucune expertise technique (pas de codage ni de ligne de commande).
Bien qu'il n'égale pas encore le niveau de détail de VideoGigaGAN, VideoProc Converter AI rend vos vidéos nettement plus nettes, claires et détaillées, répondant aux besoins de la plupart des utilisateurs.

