>>>>>>>>>> English >>>>>>>>>> (Deutsche Version weiter unten) 

Dear friends,

ever heard of  DALL·E 2, Midjourney or Imagen? No? Well, these are large machine learning (ML) models capable of creating stunning images from scratch. Have a look at the respective website to view impressive examples of "an astronaut riding a horse in space" or  "a brain riding a rocket ship heading towards the moon". 

DALL·E 2, Midjourney & Imagen

These generative models consist of multiple building blocks working together (e.g., text processing models and image generation models), which leverage the power of deep neural networks and other ML algorithms. Hundreds of millions of images and their associated captions were used for training and hence the relationship between the text description of the image and the image itself, which is nothing more than a collection of pixels, has been learned by the neural network. The models start out from random noise and are ultimately able to create almost arbitrary images based on text descriptions of how the image is supposed to look like. If you want to learn more about how these models work and their architecture, feel free to visit the linked websites of  DALL·E 2 and Imagen. 

As of yet, these models are not available to the public. On the one hand these techniques can be utilized to create stunning digital artworks. On the other they might be misused to create deep fakes and violent or unethical content flooding the web. Further, these models might be biased. For example, entering a prompt with "a man" or "CEO" in it might always result in a bearded white man in the resulting image drawn by the AI, which is of course not appropriate. Before these concerns and ethical issues get addressed, the models will only be available to a selected few to be tested in a confined environment.

Stable Diffusion

However, there are some open-source implementations of image-generating ML models available online. The most famous one at the moment is the recently released Stable Diffusion!

This is also a diffusion-based model, like DALL·E or Imagen. The main difference is that this model operates in a latent space. This means that the model utilizes a compressed image representation instead of the image itself and then works to reconstruct the image. So it is not working with the pixel space, or regular images, anymore. Working in such a compressed space allows for more efficient and faster generations as the data size is much smaller, which makes the whole model very efficient. Stable Diffusion is open-source and can be utilized by everyone! Due to the model optimization performed by the researchers, the whole model has a size of about 10 GB and can thus be downloaded to your local computer. You can then run the model on the edge on your very own NVIDIA graphics card! The open-source community has already developed GUIs (graphical user interface), so that really everybody with a capable PC can run the model. Have a look at the NMKD Stable Diffusion GUI for example. Depending on the specific GPU (graphics processing unit) of your PC, especially the available VRAM (video random access memory), you are able to generate images in various resolutions for free. The resulting quality is just amazing and certainly comparable to Dalle·E 2, Midjourney or Imagen!

I created the image for this post with Stable Diffusion based on the simple prompt: "an AI creating art" and modified it slightly! Try it yourself, it's quite fun to enter different text prompts and see the results generated by the model!

Limitations of AI generated art

The main limitation I currently see from a design perspective regarding AI-generated images is the resolution of the output image. Most services based on the aforementioned models enable a default resolution of 1024x1024 pixels. The image coming out of the model is originally only 64x64 pixels and gets upscaled via two up-sampling steps to create the final resolution of 1024x1024 pixels, which is still a rather low resolution in terms of graphic design. Higher resolutions result in significantly higher computational costs! With Stable Diffusion you can theoretically generate images with higher resolutions on your computer, but this requires a very expensive GPU with extensive VRAM!

For example, a print design for a T-Shirt with a size of 30x40cm at a resolution of 300 ppi has about 3500x4700 pixels, which is an almost 16 times higher pixel count. A poster design in DIN A1 format at 300 ppi even requires 10000x7000 pixels to achieve a decent print quality, which are about 67 times more pixels than the default maximum output by most current AI models!

Most images still have to be altered manually since in most cases some details of the image are not as they should be, for example a weird looking eye, a sixth finger or third arm. Further, the framing and format need to be adjusted most of the times. Certain elements like text and logos also must be added to the AI generated image afterwards!

Another challenge is to actually get the image to look like you actually intend it to! This is where writing suitable prompts to tell the AI how you want the image to look like is crucial. If you have a specific image in mind, it can require a lot of iterations to tune the image to your liking by adjusting the prompt. Hence, your control over the image adjustments is way more limited in contrast to direct manipulation in Photoshop!

How to overcome the limitations

To overcome the disadvantages, you can however use AI-based upscalers like Photoshop's Super Resolution & Zoom, AI Image Enlarger or other services available online to further tune the AI-generated image to an appropriate resolution! These services enable significant upscaling of the input image. Since the upscaler adds a lot of new pixels to the image, the main drawback is that images might get pixelated or blurry depending on the specific method. However, most upscalers do a decent job.

I have already tried quite a few upscaling methods and found the option that works best for me with the open-source tool ChaiNNer. Using ChaiNNer, images can be upscaled arbitrarily through GANs (Generative Adverserial Network). Different upscaling models that are best suited for the particular image can be downloaded and used for free via a model database! The particular model can then be selected in ChaiNNer and run to upscale an image on the local GPU! All you need to do is download the application for your system and install an ML framework that is suitable for your graphics card (e.g. PyTorch for NVIDIA GPUs). After downloading at least one upscaling model, you're ready to go and upscale images as you please! With this method I achieve the best upscaling results.

There is currently no way to get around the manual postprocessing! Especially, text and logos must be added and the framing and format need to be adjusted manually. For this, AI based features in Photoshop like content-aware fill or scale can be very useful. To reduce the effort of adjusting inappropriate details, like additional limbs, it is helpful to use faulty images for further iterations. This is possible with Stable Diffusion, where you can define an image containing incorrect details and refine it by re-running the algorithm with that image as the basis for the new one. This procedure can eliminate errors within a few iterations!

To arrive at the image you want, you basically need patience. It helps to formulate specific prompts right from the start. For this, you can look up tips on prompt engineering online. There are a lot of resources out there. I also like to get inspired by images other people created and incorporate parts of their prompts into my own. Have a look at the website Lexica! There you can explore a lot of AI-based images and view the corresponding prompts.

Finally, it helps to utilize one of the latest NVIDIA GPUs, if you run Stable Diffusion on your PC. This speeds up the process significantly and enables decent image resolutions! You can also use cloud-based services, which can be accessed via your web browser, like DreamStudio. Here, you get some free credits to generate images. However, you do have to pay afterwards, which can be more or less costly depending on how many images you generate and on the specific parameters you use.

Now to the question whether I use AI-generated images for my designs

In short, Yes and No. I still create designs using the old-fashioned way. Especially for clothing, the manual way is still suitable as I prefer simpler designs and like to have more control over the overall look. But I do also run Stable Diffusion on my local PC to generate AI based images, which I then upscale with ChaiNNer and modify heavily in Photoshop. I run the model using the NMKD Stable Diffusion GUI on my NVIDIA RTX 3060 with 12GB of VRAM, which allows me to create large images with millions of pixels (e.g. 2048x1536)! However, this is very time consuming (up to 20 minutes for a single image). Also, since the original model was trained on 512x512 images, the results can get a bit messy as the model tries to run the prompt on 512x512 tiles. So for my purposes, I render images of 1 to 1.5 million pixels in the format I need for further processing, and then use the described upscaling method.

As mentioned before, I run a lot of iterations before arriving at the final image. Usually, I start out with a simple prompt, see what the AI comes up with and then modify the prompt accordingly. I then use the best images as basis for further iterations. It's not unusual that I generate hundreds of images before arriving at the final image for further optimization in Photoshop. This process can take up to several hours. Afterwards, I invest several more hours in manual postprocessing of the image. So, you can see that in order to use an AI generated image for my designs, a decent amount of manual work is still necessary!

I intend to use these AI based designs for wall art products (canvases and posters) in the future. So, you can be excited what I come up with! These artworks will be released in my AI Art Collection!

Conclusion

Generative AI models able to create stunning images from scratch based on text prompts will revolutionize the graphic design domain and shift it towards crafting elaborate text-based prompts to feed into the respective model. This will surely democratize the graphic design space! The release of Stable Diffusion to the public is an important step in that direction!

I am excited to see what the AI-based image generation future holds!

Feel free to comment or send me a message if you want to know more.

All the best,

Andy

----------

PS: All of the images in this post were created using Stable Diffusion! Amazing, right?

Resources:

 

>>>>>>>>>> Deutsch >>>>>>>>>

Liebe Freunde,

hast Du schon einmal von DALL-E 2, Midjourney oder Imagen gehört? Nein? Nun, das sind große maschinelle Lernmodelle, die in der Lage sind, atemberaubende Bilder von Grund auf zu erstellen. Wirf einen Blick auf die jeweilige Website, um beeindruckende Beispiele von "einem Astronauten, der auf einem Pferd im Weltraum reitet" oder "einem Gehirn, das auf einem Raketenschiff in Richtung Mond reitet" zu sehen. 

DALL-E 2, Midjourney & Imagen

Diese generativen Modelle bestehen aus mehreren Bestandteilen, die zusammenarbeiten (z. B. Textverarbeitungsmodelle und Bilderzeugungsmodelle) und die die Leistung von tiefen neuronalen Netzen und anderen ML-Algorithmen nutzen. Hunderte von Millionen von Bildern und die dazugehörigen Bildunterschriften wurden für das Training verwendet, so dass die Beziehung zwischen der Textbeschreibung des Bildes und dem Bild selbst, das nichts anderes als eine Ansammlung von Pixeln ist, vom neuronalen Netz gelernt wurde. Die Modelle gehen von einem zufälligen Rauschen aus und sind schließlich in der Lage, auf der Grundlage von Textbeschreibungen, wie das Bild aussehen soll, fast beliebige Bilder zu erstellen. Wenn Du mehr über die Funktionsweise und den Aufbau dieser Modelle erfahren möchtest, besuche gerne die verlinkten Websites von DALL-E 2 und Imagen. 

Bislang sind diese Modelle noch nicht öffentlich zugänglich. Auf der einen Seite können diese Techniken genutzt werden, um beeindruckende digitale Kunstwerke zu schaffen. Andererseits können sie missbraucht werden, um Fälschungen und gewalttätige oder unethische Inhalte zu erstellen, die das Internet überschwemmen. Außerdem können diese Modelle voreingenommen sein. Wenn man beispielsweise eine Eingabeaufforderung mit dem Wort "ein Mann" oder "CEO" eingibt, könnte das von der KI gezeichnete Bild immer einen weißen Mann mit Bart zeigen, was natürlich nicht angemessen ist. Bevor diese Bedenken und ethischen Fragen geklärt sind, werden die Modelle nur einigen wenigen Auserwählten zur Verfügung stehen, die sie in einer begrenzten Umgebung testen können.

Stable Diffusion

Es gibt jedoch einige Open-Source-Implementierungen von ML-Modellen zur Bilderzeugung, die online verfügbar sind. Das bekannteste Modell ist das kürzlich veröffentlichte Stable Diffusion!

Dies ist ebenfalls ein diffusionsbasiertes Modell, wie DALL-E oder Imagen. Der Hauptunterschied besteht darin, dass dieses Modell in einem latenten Raum arbeitet. Das bedeutet, dass das Modell eine komprimierte Bilddarstellung anstelle des Bildes selbst verwendet und dann daran arbeitet, das Bild zu rekonstruieren. Es arbeitet also nicht mehr mit dem Pixelraum oder normalen Bildern. Die Arbeit in einem solchen komprimierten Umfeld ermöglicht eine effizientere und schnellere Generierung, da die Datengröße viel kleiner ist, was das gesamte Modell sehr effizient macht. Stable Diffusion ist open-source und kann von jedem genutzt werden! Dank der von den Forschern durchgeführten Modelloptimierung hat das gesamte Modell eine Größe von etwa 10 GB und kann somit auf deinen lokalen Computer heruntergeladen werden. Du kannst das Modell dann auf deiner eigenen NVIDIA-Grafikkarte ausführen! Die Open-Source-Gemeinschaft hat bereits grafische Benutzeroberflächen (GUIs) entwickelt, so dass wirklich jeder, der über einen leistungsfähigen PC verfügt, das Modell nutzen kann. Schaue Dir zum Beispiel die NMKD Stable Diffusion GUI an. Abhängig von der spezifischen GPU (Graphics Processing Unit) deines PCs, insbesondere dem verfügbaren VRAM (Video Random Access Memory), bist Du in der Lage, kostenlos Bilder in verschiedenen Auflösungen zu erzeugen. Die resultierende Qualität ist einfach erstaunlich und sicherlich vergleichbar mit Dalle-E 2, Midjourney oder Imagen!

Das Bild für diesen Beitrag habe ich mit Stable Diffusion erstellt, basierend auf der einfachen Texteingabe (prompt): "eine KI, die Kunst schafft" und habe es leicht modifiziert! Probiere es gerne selbst aus, es macht Spaß, verschiedene Prompts einzugeben und die Ergebnisse zu sehen, die das Modell erzeugt!

Einschränkungen von KI-generierter Kunst

Die größte Einschränkung, die ich derzeit in Bezug auf KI-generierte Bilder sehe, ist die Auflösung des Ausgabebildes. Die meisten Dienste, die auf den oben erwähnten Modellen basieren, ermöglichen eine Standardauflösung von 1024x1024 Pixeln. Das Bild, das aus dem Modell kommt, ist ursprünglich nur 64x64 Pixel groß und wird über zwei Upsampling-Schritte hochskaliert, um die endgültige Auflösung von 1024x1024 Pixeln zu erreichen, was aus Sicht des Grafikdesigns immer noch eine recht geringe Auflösung ist. Höhere Auflösungen führen zu einem deutlich höheren Rechenaufwand! Mit Stable Diffusion kannst Du theoretisch Bilder mit höheren Auflösungen auf deinem Computer erzeugen, aber das erfordert eine sehr teure Grafikkarte mit viel VRAM!

Ein Druckdesign für ein T-Shirt mit einer Größe von 30x40cm bei einer Auflösung von 300 ppi hat z.B. ca. 3500x4700 Pixel, also eine fast 16-fach höhere Pixelanzahl. Ein Plakatentwurf im Format DIN A1 bei 300 ppi benötigt sogar 10000x7000 Pixel, um eine anständige Druckqualität zu erreichen, was etwa 67-mal mehr Pixel sind als die maximale Standardausgabe der meisten aktuellen KI-Modelle!

Die meisten Bilder müssen zudem immer noch manuell nachbearbeitet werden, da in den meisten Fällen einige Details des Bildes nicht so sind, wie sie sein sollten, z. B. ein seltsam aussehendes Auge, ein sechster Finger oder ein dritter Arm. Auch der Bildausschnitt und das Format müssen in den meisten Fällen angepasst werden. Bestimmte Elemente wie Text und Logos müssen dem KI-generierten Bild ebenfalls nachträglich hinzugefügt werden!

Eine weitere Herausforderung besteht darin, das Bild so aussehen zu lassen, wie Du es eigentlich beabsichtigst! Hier ist es wichtig, dass Du geeignete Prompts schreibst, um der KI mitzuteilen, wie das Bild aussehen soll. Wenn Du ein bestimmtes Bild im Kopf hast, kann es viele Iterationen erfordern, um das Bild durch Anpassung der Eingabeaufforderung nach deinen Wünschen zu gestalten. Daher ist deine Kontrolle über die Bildanpassungen im Gegensatz zur direkten Manipulation in Photoshop sehr viel eingeschränkter!

Wie man die Einschränkungen überwindet

Um die Nachteile zu überwinden, kannst Du jedoch KI-basierte Upscaler wie Photoshops Super Resolution & Zoom, AI Image Enlarger oder andere online verfügbare Dienste verwenden, um das KI-generierte Bild auf eine geeignete Auflösung zu bringen! Diese Dienste ermöglichen eine erhebliche Hochskalierung des Eingangsbildes. Da der Upscaler dem Bild viele neue Pixel hinzufügt, besteht der größte Nachteil darin, dass die Bilder je nach Methode verpixelt oder unscharf werden können. Die meisten Upscaler leisten jedoch gute Arbeit. 

Ich habe bereits einige Upscaling-Methoden ausprobiert und bin mit dem open-source Tool ChaiNNer auf die meiner Meinung nach beste Option gestoßen. Mittels ChaiNNer lassen sich Bilder durch GANs (Generative Adverserial Network) beliebig hochskalieren. Verschiedene Upscaling-Modelle, die für das jeweilige Bild am besten geeignet sind, können über eine Modell-Datenbank gratis heruntergeladen und genutzt werden! Das jeweilige Modell kann dann in ChaiNNer ausgewählt und zum Upscaling eines Bildes auf der lokalen Grafikkarte ausgeführt werden! Du musst nur die Anwendung für dein System herunterladen und ein ML-Framework installieren, das für deine Grafikkarte geeignet ist (z. B. PyTorch für NVIDIA-GPUs). Nachdem Du mindestens ein Upscaling-Modell heruntergeladen hast, bist Du startklar und kannst Bilder nach Lust und Laune hochskalieren! Mit dieser Methode erziele ich die besten Upscaling Ergebnisse.

An der manuellen Nachbearbeitung führt derzeit kein Weg vorbei! Vor allem Text und Logos müssen hinzugefügt und der Rahmen und das Format müssen manuell angepasst werden. Hierfür können KI-basierte Funktionen in Photoshop wie inhaltsabhängiges Füllen oder Skalieren sehr nützlich sein. Um den Aufwand für die Anpassung unpassender Details, wie z. B. zusätzlicher Gliedmaßen, zu reduzieren, ist es hilfreich, fehlerhafte Bilder für weitere Iterationen zu verwenden. Dies ist mit Stable Diffusion möglich, da Du ein Bild mit fehlerhaften Details definieren und den Algorithmus mit diesem Bild als Grundlage für das neue Bild erneut ausführen kannst, um es zu verbessern. Mit diesem Verfahren können Fehler innerhalb weniger Iterationen beseitigt werden!

Um das gewünschte Bild zu erhalten, braucht man vor allem Geduld. Es hilft, von Anfang an konkrete Aufforderungen zu formulieren. Dazu kannst Du dir im Internet Tipps für die Erstellung von Prompts holen. Da gibt es eine ganze Reihe von Quellen. Ich lasse mich auch gerne von Bildern inspirieren, die andere Nutzer erstellt haben, und baue Teile ihrer Prompts in meine eigenen ein. Wirf einen Blick auf die Website Lexica! Dort kannst Du viele KI-basierte Bilder erkunden und die entsprechenden Prompts einsehen.

Schließlich ist es hilfreich, einen der neuesten NVIDIA-Grafikprozessoren zu verwenden, wenn Du Stable Diffusion auf deinem PC ausführst. Dies beschleunigt den Prozess erheblich und ermöglicht ordentliche Bildauflösungen! Du kannst auch cloud-basierte Dienste nutzen, auf die Du über einen Webbrowser zugreifen kannst, wie DreamStudio. Hier erhältst Du einige kostenlose Credits, um Bilder zu erstellen. Allerdings musst Du anschließend bezahlen, was mehr oder weniger kostspielig sein kann, je nachdem, wie viele Bilder Du erzeugst und welche spezifischen Parameter verwendet werden.

Nun zu der Frage, ob ich KI-generierte Bilder für meine Designs verwende

Kurz gesagt: Ja und Nein. Ich erstelle meine Designs immer noch auf die altmodische Art. Besonders für Kleidung ist die manuelle Methode noch geeignet, da ich einfachere Designs bevorzuge und gerne mehr Kontrolle über das Gesamtbild habe. Aber ich verwende auch Stable Diffusion auf meinem lokalen PC, um KI-basierte Bilder zu erzeugen, die ich dann mit ChaiNNer hochskaliere und in Photoshop stark modifiziere. Ich lasse das Modell mit der NMKD Stable Diffusion GUI auf meiner NVIDIA RTX 3060 mit 12GB VRAM laufen, was es mir ermöglicht, große Bilder mit Millionen von Pixeln zu erzeugen (z. B. 2048x1536)! Dies ist jedoch sehr zeitaufwändig (bis zu 20 Minuten für ein einziges Bild). Da das ursprüngliche Modell mit 512x512-Bildern trainiert wurde, können die Ergebnisse außerdem etwas unschön werden, da das Modell versucht, den Prompt auf 512x512-Kacheln auszuführen. Für meine Zwecke rendere ich daher Bilder mit 1 bis 1,5 Millionen Pixeln in dem Format, das ich für die weitere Bearbeitung benötige, und verwende dann die beschriebene Hochskalierungsmethode.

Wie bereits erwähnt, führe ich viele Iterationen durch, bevor ich das endgültige Bild erhalte. Normalerweise beginne ich mit einer einfachen Eingabeaufforderung, schaue, was die KI herausfindet, und ändere dann den Prompt entsprechend. Die besten Bilder verwende ich dann als Grundlage für weitere Iterationen. Es ist nicht ungewöhnlich, dass ich Hunderte von Bildern generiere, bevor ich das endgültige Bild für die weitere Optimierung in Photoshop erhalte. Dieser Prozess kann bis zu mehreren Stunden dauern. Danach investiere ich noch einige Stunden in die manuelle Nachbearbeitung des Bildes. Du siehst also, dass für die Verwendung eines KI-generierten Bildes für meine Entwürfe immer noch ein beträchtlicher Anteil an manueller Arbeit erforderlich ist!

Ich beabsichtige, diese KI-basierten Designs in Zukunft für Wandkunstprodukte (Leinwände und Poster) zu verwenden. Du kannst also gespannt sein, was ich mir einfallen lasse! Die Artworks werden dann in meiner AI-Art-Kollektion veröffentlicht!

Fazit

Generative KI-Modelle, die in der Lage sind, auf der Grundlage von Textanweisungen atemberaubende Bilder von Grund auf zu erzeugen, werden das Erstellen von Grafikdesigns revolutionieren und ihn in Richtung der Erstellung elaborierter textbasierter Anweisungen für die Eingabe in das jeweilige Modell verändern. Dies wird den Bereich des Grafikdesigns sicherlich demokratisieren! Die Freigabe von Stable Diffusion für die Öffentlichkeit ist ein wichtiger Schritt in diese Richtung!

Ich bin gespannt, was die Zukunft der KI-basierten Bilderzeugung bringt!

Wenn Du mehr wissen willst, kommentiere gerne oder schicke mir eine Nachricht.

Alles Gute,

Andy

----------

PS: Alle Bilder in diesem Beitrag wurden mit Stable Diffusion erstellt! Erstaunlich, oder?

Ressourcen: