Comment l’IA suralimente la créativité humaine ?

Yasmine Maricar
14 min readDec 3, 2022

Les générateurs d’images IA deviennent omniprésents et ont connu une augmentation significative au cours de l’été dernier avec la sortie de modèles open source dotés de capacités énormes telles que MidJourney.

Les avancées dans le domaine ont été époustouflantes et ce sujet m’intéresse beaucoup d’autant plus que je suis à la fois artiste et développeuse en Machine Learning (apprentissage automatique, science des données).

Aussi, j’ai voulu approfondir ces nouveaux outils et vous donner un aperçu et mes réflexions actuelles.

Cet article est une version étendue d’une courte conférence que j’ai donnée chez Microsoft lors d’une session de partage interne autour de divers sujets. Je fais partie de l’organisation des architectes cloud spécialisés en IA, où nous aidons chaque organisation à en faire plus avec les données et l’IA.

Tout d’abord : une introduction aux générateurs d’images à partir de texte

Prompt : “le Petit Prince Saint Exupéry et son ami renard dans la forêt veillant sur un bouquet de fleurs” avec MidJourney” avec MidJourney

Cette image a été générée avec un tel outil, j’ai généré qu’en écrivant une invite de texte (qu’on appelle aussi “prompt”), ici c’était « le Petit Prince Saint Exupéry et son ami renard dans la forêt regardant quelques fleurs »

Bien sûr, dans ma tête, j’avais une certaine vision de ça, Le Petit Prince est un livre et je voulais une illustration avec les dits personnages.

Dans ce cas, cela semble être une très bonne œuvre d’art, assez abstraite quelque part, avec une sensation éthérée mais toujours assez bonne dans sa “réinterprétation”. C’est choquant à quel point on peut appeler cela “artistique”, cependant, voyons comment cela fonctionne dans les coulisses et ce qui a permis à cet outil de créer des œuvres d’art aussi “crédibles”.

La plupart des outils de génération d’images récents fonctionnent comme ça, ils prennent une invite de texte comme entrée, puis cela prend quelques secondes, jusqu’à 30 secondes je dirais, pour générer quelques images.

Sous le capot, ils travaillent principalement avec la dernière percée dans les modèles de texte en images : c’est ce qu’on appelle les modèles de diffusion .

La partie “texte guidé” fait référence au fait que le modèle apprend des associations entre des millions de paires de légendes et d’images associées. C’est ainsi qu’il peut apprendre à générer des images liées à une invite de texte spécifique.

Quant à la deuxième partie, qui est la diffusion, elle fait référence au fait que le modèle a, en quelque sorte, essayé de faire le processus inverse, en comprenant comment chaque goutte de peinture était déposée sur une œuvre.

Fondamentalement, il apprend en détruisant les données d’entraînement en y ajoutant du bruit, c’est donc la première étape de la figure ci-dessous :

Ensuite, il apprend à récupérer les données étape par étape en inversant le processus de bruit afin qu’il puisse simplement être illustré comme ça.

En fait, le modèle a appris de tout cela et produira des valeurs de pixel, étape par étape, jusqu’à la représentation complète d’une image.

Il n’utilise pas nécessairement les images en elles-mêmes, mais il a des millions à des milliards de variables qui sont utilisées chaque fois qu’il essaie de générer quelque chose de nouveau, il a donc juste besoin d’une invite de texte et il générera quelque chose à partir du bruit. Vous pouvez également ré-générer à partir de la même invite de texte et vous obtiendrez généralement des résultats différents.

Comparons différents outils de génération d’images

DALL-E par OpenAI

DALL-E d’Open AI (société privée) a été le premier à bénéficier d’une exposition critique grâce à ses capacités de conversion de texte en image, comment se compare-t-il à ces nouveaux venus open source ?

Le nom “DALL-E” est une combinaison de WALL-E (le film Pixar) et de Salvador Dalí, l’artiste.

Ici, j’ai généré des images représentant un astronaute dans une station balnéaire tropicale. Les images générées sont intéressantes et je voulais modifier l’astronaute pour qu’il s’agisse d’une astronaute typiquement féminine sirotant un cocktail (oui oui, dans l’espace).

Avec DALL-E, on peut modifier une partie d’une image en la mettant en surbrillance et en changeant l’invite de texte (=prompt), comme vous pouvez le voir ici, ce fut assez efficace.

On peut aussi partir d’une image et générer des variations à partir de celle-ci.

DALL-E est également fier de l’idéation de la conception de produits à l’image, j’ai juste mis ce que j’avais en tête en tant que produit sous forme d’invite de texte et ta-da!, j’ai obtenu des photos super réalistes! Impressionant!

L’outil de MidJourney

MidJourney propose un bot Discord avec lequel interagir pour générer des images et nous avons deux choix : upscaler une image ou générer d’autres variations à partir de celle-ci. Une invite de texte génère 4 images différentes dans une grille 2x2 :

Ici, j’ai choisi de faire une série d’opérations pour observer les capacités de MidJourney en matière d’art conceptuel et d’illustration, car il est surtout connu pour cela. Cela m’a donné quelques options intéressantes même si cela ne suivait pas exactement mon invite comme je le voulais. ce processus d’itération et de réingénierie des mots que vous utilisez n’est pas différent du processus d’apprentissage à connaître un nouveau moteur de recherche et à “peaufiner” vos mots clés pour trouver le bon contenu, c’est maintenant presque un art, appelé “prompt engineering”.

Qui sait, peut-être aurons-nous des experts en prompt engineering à l’avenir 😮 Remarque : des personnes publient déjà des livres et du contenu liés à l’ingénierie par prompt et à l’utilisation d’outils d’IA pour la création artistique

J’ai essayé de générer des variations à partir des images générées en utilisant le bouton “v3” faisant référence à l’image en bas à gauche.

Midjourney n’était pas bon avec les visages cependant, il a évolué assez rapidement.

Vous pouvez également régénérer à partir de la même invite d’origine et obtenir des résultats différents.

Dans l’ensemble, ce n’était pas nécessairement ce que j’avais en tête en termes d’œuvres d’art, mais c’était définitivement émouvant et une expérience passionnante. Essayons d’autres invites de texte.

Concept Art avec MidJourney

Ici, l’art conceptuel semble plutôt bon et abstrait alors que je faisais référence à la littérature (Dune, “l’Épice”) et que j’avais un personnage représenté en tête. Lorsque j’ai mis à l’échelle l’image en bas à droite, nous pouvons voir que plus de détails ont commencé à apparaître, c’était intéressant. Le rendu ajoute plus de pixels et parfois l’image diffère beaucoup de la version réduite. Sur l’image de droite, on voit peut-être une “princesse galactique” cachée dans le sable ?

J’ai aussi utilisé des personnages de jeux vidéo comme référence. Les visages sont plutôt bons. La référence de Thanatos est liée à la mort dans la mythologie grecque, que l’outil semble avoir reprise (n’a pas beaucoup compris les références au jeu, mais ça a toujours l’air plutôt “cool” en ce qui concerne les œuvres d’art générées !)

Je ne m’attendais donc pas à ce que MidJourney les connaisse, mais comme il a été entrainé sur énormément de paires de textes et d’images, je me demandais s’il produirait quelque chose de cohérent.

Au final ça a bien été le cas. C’est esthétiquement agréable et peut passer comme étant “créé” par un humain.

À propos du processus : au début, vous obtenez quelque chose qui est vraiment flou et qui se précise un peu plus pour que vous puissiez voir le modèle progresser étape par étape tout en utilisant l’outil de MidJourney.

Le simple fait de voir le processus peut apporter un sentiment d’émerveillement et de joie en allant du début du pixel à l’image finale !

Dreamstudio (Diffusion Stable)

Dreamstudio by Stability.ai est un autre outil open-source exploitant un modèle appelé “Stable Diffusion”.

Il y a certainement une controverse autour de la diffusion stable et avec raison, comme nous pouvons le voir, il fonctionne merveilleusement bien dans la création d’images dans le “style” d’artistes contemporains bien connus.

La raison c’est que ce modèle a été entraîné sur un ensemble de données avec des images de ces artistes (ce qui est une zone grise légalement, nous y reviendrons ensuite).

Les autres n’ont pas été en mesure de produire quelque chose d’assez similaire bien que MidJourney se targue de générer de l’art “populaire” (il a définitivement un style distinctif et est capable de plaire à un large public).

Recap

A partir de ce que j’ai tenté, j’ai essayé de faire un tableau décrivant les “spécialités” (note: MidJourney a pu évoluer depuis avec la v4) pour chacun de ces outils.

Actuellement : les créations artistiques d’une IA ne peuvent pas être protégées par les lois sur le droit d’auteur. *DALL-E autorise désormais les visages

À propos des limites

  1. C’est polluant d’entraîner de tels modèles. Ils ont fait fonctionner des machines GPU pendant des jours (environ 30 jours pour certains) avec beaucoup de calculs nécessaires… Cela a été difficile d’obtenir des informations précises à ce sujet. Ces modèles contiennent également des milliards de variables qui sont utilisées chaque fois que ça génère quelque chose de nouveau ! Cela dit, les modèles sont de plus en plus optimisés, maintenant vous pouvez même exécuter le modèle de diffusion stable sur des cartes graphiques grand public car il ne contient « que » 890 millions de variables.
  2. Il y a un biais dans les modèles. Parce que vous avez besoin d’un ensemble de données de formation volumineux, ces entreprises utilisent des ensembles de données extraits du Web tels que LAION , qui est en effet autorisé à des fins de recherche. Cela signifie qu’il n’est “pas destiné à la production ou à l’application dans le monde réel”. mais ces outils deviennent ensuite disponibles au public pour un usage commercial, ce qui est problématique. Les données mises au rebut signifient qu’elles ne sont pas organisées, qu’elles comportent des biais inhérents et qu’elles peuvent inclure des stéréotypes et des représentations nuisibles qui sont ensuite apprises par le modèle. DALL-E a supprimé le contenu le plus explicite des données de formation. Certaines entreprises ont également des politiques de contenu dans lesquelles vous n’êtes pas autorisé à utiliser des prompts spécifiques et vous devez vous conformer à leur politique de sécurité.
  3. rapide : le domaine continuera d’évoluer rapidement et la législation a du mal à suivre, il n’y a pas de législation sur ce qui est généré, les images générées par l’IA ne sont pas protégées par le droit d’auteur même si certaines entreprises derrière ces outils revendiquent le droit d’auteur sur eux et offrent une utilisation commerciale sous conditions à leurs clients.
  4. En termes d’ éthique , c’est aussi un sujet sensible : qui est le créateur au final ? Est-ce l’utilisateur, le modèle ou les artistes originaux (une combinaison de tous ?). À des fins de recherche, c’est bien d’utiliser des données trouvées sur la toile, le problème se pose lorsque ces outils sont fournis en tant que services que vous pouvez utiliser commercialement. De plus, comment serait-il possible pour les artistes de retirer leur art des données de formation si leurs données ont été utilisées contre leur volonté ? Ils ne peuvent pas le faire parce que le modèle a déjà été formé et appris de lui, donc c’est encore flou.

Dans l’ensemble, il y a un manque de transparence et de responsabilité : il était un peu difficile d’obtenir des informations sur l’ensemble de données utilisé. Tout cela pose un risque de fraude et de plagiat endémiques en raison de la disponibilité généralisée de ces outils et technologies sur le marché.

En ce qui concerne MidJourney, ce sont des milliards d’images, mais aussi des œuvres d’art protégées par le droit d’auteur d’Artstation et de Deviantart qui ont été utilisées pour la formation, ce qui explique également pourquoi c’est un art conceptuel et une illustration grand public bien générés. Quant à Dreamstudio (diffusion stable), c’est assez similaire aussi.

Il y a aussi un débat sur l’open source : la plupart des entreprises privées gardent leurs modèles secrets parce qu’elles supposent qu’ils ne sont pas sûrs pour une diffusion publique (jusqu’à ce qu’il y ait des mécanismes en place pour prévenir les abus) et accessibles en version bêta d’abord : c’est un bon début de principe à mon avis pour essayer d’utiliser ces outils de manière responsable.

Il semble plus éthique de former un modèle sur vos propres créations passées ou de limiter les œuvres artistiques du domaine public et les images open source dans un jeu de données d’entrainement de modèle.

Potentiel — La technologie au service de la création

La technologie est déjà utilisée pour aider à automatiser les processus fastidieux d’animation 2D et 3D : l’IA remplit les images intermédiaires en calculant des trajectoires réalistes basées sur l’entraînement, la séquence d’images suivante en est un exemple pour un personnage de jeu vidéo (Ubisoft LaForge).

Il existe également des fonctionnalités dans les logiciels de peinture numérique qui visent à aider les artistes tels que :

  • le remplissage intelligent : savoir où colorier en se basant sur un lineart.
  • le Débruitage (rééchantillonnement des images et effacement du bruit pour réutiliser votre travail antérieur sous forme d’image plus grande.)
  • la colorisation automatisée (phase d’expérimentation dans la plupart des logiciels, ne fonctionne pas très bien)

Le design à la portée de tous

Ainsi, le plus grand changement avec cette technologie est que la conception, pour passer de l’idéation (pour le moment, on démarre toujours avec du texte) à un rendu fini à partager est accessible à tous. Cela aura un impact énorme sur la façon dont nous nous rapportons à, interagissons avec et procédons à la création artistique.

Certains créateurs ne sont pas inquiets et c’est vrai que ça ne change pas forcément l’être humain dans la boucle. La collaboration humaine, la vision et les retouches existent toujours dans ce genre de métiers techniques traitant d’une vision artistique. Il permet en fait la créativité en comblant le fossé entre les idées et les compétences techniques, cela ressemble surtout à un moteur de recherche surpuissant.

De mon côté, je n’oserais pas prétendre qu’une œuvre générée par elle m’appartient car cela n’aurait aucun sens pour moi et avec mon rapport à la pratique artistique et à mon métier. Cependant, je vois le potentiel pour la conception de produits, mais aussi pour générer des moodboards et m’en inspirer.

Voici quelques exemples de créateurs qui utilisent ces outils de nouvelles façons :

https://www.instagram.com/reel/Ch45WyoJ3M5/

Utilisation de DALL-E et d’autres outils pour générer des tenues en marchant, la fausse vidéo de @karenxchang : cette créatrice a généré des tenues à partir de DALL-E et les a toutes combinées dans une jolie petite démo, l’image donnée à DALL-E était tout son corps, DALL-E changeait à chaque fois la tenue. Elle n’avait plus qu’à assembler les images statiques en une vidéo.

Cette vidéo utilise de l’IA pour générer ses images relatives aux paroles de la musique, elle nécessitait encore du travail supplémentaire au-delà des paroles de la chanson pour réaliser la vidéo musicale que le créateur recherchait : il a modifié les paroles, ajouté des images clés pour le mouvement de la caméra et les a synchronisées, il a donc fallu de l’effort humain.

En conclusion, qu’est-ce que cela signifie pour les créateurs ?

Au final, ces outils permettent aux créateurs de :

  • Supprimer la barrière technique associée à la maîtrise de l’artisanat et des outils, cela permet aux gens de partir d’idées et de générer des photos d’art ou réalistes, qui peuvent les inspirer et sont partageables.
  • L’utiliser comme un moyen efficace de s’inspirer rapidement (images de référence), l’intégrer dans leur flux de travail (inspiration, retouche)
  • Devenir trop dépendant : les générateurs d’images sont toujours basés sur l’ensemble de données d’entraînement qu’ils ont alimenté, ce qui équivaut à une “base de connaissances”; cela peut donc limiter la créativité et restreindre la vision si l’on ne s’appuie que sur ça.

C’est pourquoi il est réaliste de dire que nous avons encore besoin d’artistes et que le modèle en aurait encore besoin pour se tenir au courant des tendances… donc cela plairait maintenant, mais qu’en est-il du futur ou du style vraiment spécifique qui émerge demain ?

Secteurs potentiels impactés

  • Industrie des médias
  • Industrie du design et de la mode
  • Etc.

Au fait, Microsoft Designer vient de sortir en bêta fermée (il utilise DALL-E)!

Pour conclure, voici la nouvelle fonctionnalité de DALL-E, “out-painting”, qui est absolument passionnante à voir:

“La Jeune Fille à la perle” avec un arrière-plan rempli de “surpeinture”. August Kamp / OpenAI / Johannes Vermeer ( j’aime particulièrement le fait qu’ils mettent ici l’attribution à tous les créateurs)

Réflexions finales autour du sujet

Dans l’ensemble, c’était super amusant à expérimenter même si je me méfiais de ses capacités en raison du battage médiatique et de la méfiance venant du monde de l’art.

  • Il doit y avoir une conversation ouverte , car cela a un impact sur la façon dont nous nous rapportons, interagissons et comprenons l’art et la créativité en général
  • Les changements sont difficiles à suivre, mais je conseillerais à quiconque d’essayer de suivre les nouvelles possibilités offertes.

Dans mon cas, c’est quand je vois des communautés dont je fais partie impactées que j’essaie d’acquérir des connaissances à ce sujet. Je préfère démystifier les choses et en tant que technologue et artiste, j’utilise quotidiennement les fonctionnalités populaires des logiciels pour m’aider à automatiser certaines des tâches de la peinture numérique, mais c’est un tout autre niveau. Personnellement, cela ne me procure aucune joie et ne me viendrait pas à l’esprit de dire que quelque chose qu’un modèle d’IA a généré m’appartient, cependant

Il y a le frisson de générer quelque chose à partir de mots en quelques secondes et de voir ce que l’IA va produire, alimenté par tout cet imaginaire humain

Si vous avez trouvé cet article intéressant : vous pouvez rechercher mes autres articles, vous pouvez également vous abonner pour être averti lorsque je publie de nouveaux articles, et vous pouvez également me suivre ou me contacter sur LinkedIn . Merci pour la lecture :)

Publié originellement sur https://www.linkedin.com le 26 Octobre 2022.

--

--

Yasmine Maricar

AI/ML Tech Lead @Electronic Arts | Ex AI Cloud Architect @Microsoft | DS/ML Expert | NLP/NLU/NLG | XAI | Writer & Artist