Aujourd’hui, la génération d’images est très répandue et accessible à tout le monde. Beaucoup postent des images sur les réseaux sociaux afin d’exprimer leur créativité. Mais quels logiciels utilisent-ils ? Comment ça marche la génération d’images ? Vous trouverez toutes vos réponses dans cet article, bonne lecture !
Table
Le processus de création
Entraînement
Tout d’abord, il faut entraîner un modèle d’image pour pouvoir en générer. Avant de pouvoir générer des images à partir de texte, un modèle doit d’abord apprendre à associer des mots à des formes, des objets et des ambiances. C’est ce qu’on appelle l’entraînement. Première étape : On donne des paires images-texte au modèle, et on lui demande de générer quelque chose. On compare avec la vérité, et on calcule l’erreur (Si ce n’est pas ce que l’on attend), puis, un algorithme de rétropropagation est utilisé, afin de savoir quels neurones ont participé à la création de l’image, et d’ajuster leurs poids (les neurones d’une IA sont des petites unités de calcul, chacun agissant différemment sur l’image crée), le poids des neurones fautifs est diminué, le poids des bons neurones est augmenté. En répétant ce cycle des millions de fois, on obtient un modèle parfaitement entrainé.
Création
Une fois que le modèle est entraîné, on peut commencer à générer l’image. En général les IA partent d’un bruit aléatoire (comme ce que l’on voit sur une télé cathodique qui ne capte pas) et la débruitent en utilisant le prompt fourni par l’utilisateur (encodé pour être compris par l’IA). C’est un modèle de Diffusion, qui est assez révolutionnaire car les images produites sont de grande qualité, mais aussi car les prompts sont mieux compris et le processus de création est plus contrôlable
Temps d’exécution et modèles majeurs
Maintenant que l’on sait comment une image est générée, voyons comment la génération utilise les ressources d’un ordinateur
Les acronymes fréquemment utilisés
Afin que vous compreniez mieux le sujet, voici quelques acronymes très présents dans ce domaine. En effet, quand on parle de puissance pour générer des images, on entend souvent parler de GPU, VRAM etc… Mais que cela veut-il dire ? Commençons par le CPU (Central Processing unit) → C’est le processeur, le cœur d’un ordinateur. Ensuite, le GPU (Graphics Processing Unit) → C’est le cœur de la carte graphique (qui gère le rendu des jeux vidéo notamment). Enfin, la VRAM (Video RAM) est utilisée par la carte graphique pour stocker un tas de choses utiles au rendu des images (que ce soit de la génération ou l’affichage d’un jeu vidéo)
Pourquoi la génération d’images utilise-t-elle le GPU et pas le CPU ?
L’architecture des GPU des cartes graphiques ont été conçues pour les jeux vidéo, qui nécessitent beaucoup de calculs en parallèle. Quand la génération d’image s’est développée, il a été remarqué que la génération d’image utilise des calculs similaires, rendant les GPU très utiles pour cette tâche. Encore mieux, les GPU sont efficaces pour gérer la pierre angulaire des IA : les réseaux de neurones (voir 1.1). Ensuite, les données nécessaires à la création sont stockées dans la VRAM, que le GPU utilise pour faire ses calculs.
Performances et Accès aux grandes puissances
Maintenant que l’on sait quels composants de notre ordinateur sont utilisés, il est important de savoir lequel prioriser pour générer rapidement des images en local. La VRAM et le GPU sont les plus importants : Plus la VRAM est grande, plus vous pourrez utiliser de modèles puissants. Un GPU performant permet de générer des images jusqu’à 8 fois plus rapidement par rapport à un modèle bas de gamme. Ensuite le CPU et la RAM classique n’ont que peu d’impact, car, en général, sur la plupart des PC portables ou tours préassemblées, ces composants sont généralement de la même gamme et donc équilibrés, il est donc inutile d’en faire une priorité si vous ne touchez pas à la configuration vous-même. Enfin, pour celles et ceux qui souhaitent se consacrer sérieusement à la génération d’image par IA, Nvidia a développé le DGX Spark. C’est un boitier contenant 128 Go de mémoire unifiée (Utilisable par le CPU et le GPU) la rendant plus rapide, 4To de stockage et une puce NVIDIA GB10 Grace Blackwell Superchip, révolutionnaire et conçue pour démocratiser l’accès aux grandes puissances de calcul nécessaires pour utiliser localement les IA les plus avancées.
Un peu d’histoire : Stable Diffusion et MidJourney
Découvrons maintenant les deux pionniers de la génération d’image : Stable Diffusion et MidJourney
Stable Diffusion
Comme son nom l’indique si bien, Stable Diffusion utilise un modèle de Diffusion (comme vu dans le 1.2) pour créer les images. Sorti publiquement dans sa version 1.4 en Août 2022, il a révolutionné le domaine de la génération d’images car il est Open source, léger et hautement personnalisable. Trois mois plus tard, Stable Diffusion 2.0 est publié : Meilleure qualité, nouvelles images etc… Enfin, en juillet 2023, SDXL 1.0 (Stable Diffusion XL) sort, apportant un modèle plus gros, et une meilleure gestion des détails, notamment de l’anatomie. Il sera utilisé comme modèle sur beaucoup d’applications telles que Fooocus (Voir 3.1.1) ou ComfyUI.
MidJourney
Sorti en février 2022, on ne connait pas la méthode utilisée par MidJourney pour générer des images car l’entreprise ne l’a jamais révélé. Cependant, des tests indiquent que ce serait une forme modifiée d’un modèle de diffusion. Au début, MidJourney était accessible via un bot Discord que l’on invitait sur son serveur, mais depuis août 2024, il est disponible sur internet ; dans les deux cas, un abonnement payant est nécessaire. Le plan de base permet de générer 200 images par mois idéal pour un usage occasionnel. Le plan premium quant à lui, offre 60h de génération GPU par mois, idéal parfait pour une utilisation intensive. Enfin, Midjourney a connu beaucoup de mises à jour depuis sa sortie, sa dernière version (Midjourney V7), du 4 Avril 2025, améliore toujours plus le photoréalisme et la compréhension des prompts.
Comparaison globale
Mais alors, qui est le meilleur ? Stable Diffusion possède l’avantage de la customisation, mais Midjourney possède un très bon style artistique. Stable Diffusion doit tourner en local, résultant en de longs temps d’exécution, tandis que Midjourney possède ses propres GPU. On peut dire que ces deux modèles se complètent, donc la réponse tendrait à changer en fonction de votre profil. Si n’avez pas les performances ni les connaissances pour installer Stable Diffusion, MidJourney peut être utile avec un plan basique du fait de sa simplicité. Mais si vous avez les ressources et les connaissances, Stable Diffusion peut être un meilleur choix car personnalisable et gratuit.
Comment générer des images sans payer ?
Aujourd’hui, la plupart des outils de génération d’images nécessitent de payer, ou vous limitent dans le nombre d’images qu’il est possible de créer. Cela est dû aux coûts élevés des infrastructures nécessaires pour générer des images de haute qualité en un temps relativement court.
Les solutions qui existent
Télécharger des Applications
Le seul moyen d’avoir de la génération d’image gratuite et illimité est de les générer soi-même, via des applications téléchargeables gratuitement comme Stability Matrix, qui permet d’utiliser différentes applications dont Fooocus par exemple et qui possède une interface graphique relativement simple. De plus, il est relativement facile de trouver de la documentation sur internet quant à l’utilisation de ces dernières.
Génération en Local : Avantages et Inconvénients
L’inconvénient majeur est que la génération de l’image s’effectuera en local, sur votre machine. Donc, si votre carte graphique (voir 2.1) n’est pas assez puissante, les images peuvent être longues à générer, souvent de l’ordre d’une à cinq minutes pour une seule image ; plus on veut de qualité, plus l’image sera longue à générer. Enfin, la génération d’image utilise la carte graphique à son plein potentiel donc il n’est pas possible de jouer à des jeux pendant la génération et la consommation d’énergie est bien plus haute, par rapport à une utilisation de bureautique simple.
Mais la génération en local vous affranchit des limites quotidiennes. De plus, la plupart des applications permettent de choisir le nombre d’images générées, vous pouvez donc préparer la création de 20 Images, partir faire une balade, et revenir avec une galerie de belles images, crées de votre main (Ou pas, voir l’article sur les l’IA et les droits d’auteurs)
Comment réaliser les meilleures images possibles ?
Renforcer son Prompt
Aujourd’hui, les modèles de génération permettent de créer des images de haute qualité sans écrire un très grand prompt, mais en le détaillant suffisamment, on peut avoir des résultats tout à fait incroyables
Comment écrire un bon prompt ?
Aux débuts de la génération d’image, les prompts étaient beaucoup écrits avec des mots clés : Un chat, château, épée… Mais aujourd’hui, les modèles ont évolué et comprennent des phrases entières. Donc pour créer une bonne image, il faut savoir précisément ce que l’on veut créer, car l’IA ne pourra pas le savoir à notre place. Il faut également détailler son prompt avec le plus de détails possibles, pour être sûr que l’image correspond à nos attentes. Ou alors, on peut mettre moins de détails, l’IA peut parfois surprendre par sa créativité
Renforcement positif et négatif
Le renforcement positif consiste à “complimenter” l’image que l’on veut créer. Par exemple, au lieu d’écrire un cerf dans une forêt, on peut écrire un majestueux cerf dans une forêt verdoyante et rajouter des mots clés tels que haute qualité, chef d’œuvre...Sur certaines applications (comme Fooocus), il est automatiquement ajouté au prompt avant de commencer la génération. Ensuite, certains modèles de moins bonne qualité ont encore du mal avec certains éléments que l’on peut essayer de créer : Anatomie, écritures, détails… Pour cela, il faut ajouter un prompt négatif : Ce que l’on ne veut pas voir dans une image. En général les mots sont mauvaise qualité, mauvaise anatomie, image peu détaillée… Mais on peut également utiliser ce prompt pour des éléments qu’on ne veut pas voir sur l’image, par exemple, un ciel gris si on veut générer une image joyeuse.
Les LoRA
Un LoRA (Ou Low Rank Adaptation of Large language model) Est un modèle bien plus petit qu’un modèle d’image global qui vient se greffer sur la génération de l’image. Son but est de diriger le modèle principal vers un style artistique, un personnage ou une ambiance bien spécifique, afin d’obtenir des images toujours plus précises. Comme un modèle classique, ce dernier est entraîné sur des images, mais celles-ci doivent toutes respecter le même style afin que ce dernier soit efficace. L’avantage des LoRA est que l’on peut les combiner, et ajuster leurs forces respectives. La force d’un LoRA représente son influence sur l’image crée. Elle est en général comprise entre 0 et 1. Donc, si on utilise un LoRA qui possède un style maisons des années 70, avec une force de 1. L’image générée reprendra beaucoup d’éléments et couleurs de ce style. Enfin, comme vu plus haut, on peut également les combiner, en mettant un LoRA style années 70 et un LoRA style futuristique, on peut créer une maison des années 70 futuristique.
Trois points à retenir
Qu’est-ce qu’un modèle de diffusion ?
C’est un modèle qui utilise un bruit aléatoire et le raffine ensuite, ce procédé fut révolutionnaire car très puissant et contrôlable
Comment générer les meilleures images possibles ?
En détaillant son prompt, en le renforçant positivement et négativement, on peut avoir de bien meilleures images, encore plus si l’on ajoute un LoRA et qu’on les combine
Droits d’auteurs et images générées par IA
Le plus important est la carte Graphique, notamment son GPU et sa VRAM, pour augmenter respectivement la vitesse de génération et la taille des modèles utilisables