Bisher wurden Bilder in ChatGPT mit dem Modell DALL-E erstellt. Doch jetzt hat OpenAI ein neues Update herausgebracht: ChatGPT-4o zur Bildgenerierung!
Doch das ist nicht nur ein einfacher Modellwechsel – es bringt auch einige Verbesserungen mit sich.
🫱🏽🫲🏼 Ein multimodales Modell: Text und Bild aus einer Hand
Mit dem neuen Update, dass ChatGPT-4o zur Bildgenerierung verwendet wird, verfolgt OpenAI den Ansatz eines multimodalen Modells, das sowohl Text als auch Bilder generieren kann. Dadurch wird die Bildgenerierung noch nahtloser in die bestehenden Funktionen von ChatGPT integriert.
📈 Verbesserte Darstellung von Texten und Details
Eines der größten Probleme mit DALL-E war die fehlerhafte Darstellung von Schrift. Texte in generierten Bildern wurden oft unleserlich oder unterbrochen dargestellt oder durch merkwürdige Zeichen ersetzt.
Mit 4o hat sich das geändert. Ein direkter Vergleich zwischen den Modellen zeigt: Die neuen Bilder enthalten lesbare, klar dargestellte Schriftzüge.
Zusätzlich gibt es Verbesserungen bei der Präzision von Farbänderungen. In einem Testbild wurde beispielsweise auf Anfrage nur die Farbe eines bestimmten Objekts geändert, während der Rest des Bildes weitgehend unverändert blieb. Solche gezielten Modifikationen waren zuvor kaum möglich.
Ich habe das selbst getestet: Mein erster Prompt lautete: „Erstelle ein Bild von einer Person, die mit ihrem Hund auf einer Wiese spielt. Füge einen schönen Spruch hinzu.“ Das mit DALL-E generierte Bild (Bild 1) hatte erhebliche Probleme mit der Darstellung des Textes. Die Buchstaben waren verzerrt oder nicht vollständig lesbar.
Dann habe ich den gleichen Prompt mit 4o getestet (Bild 2) – und siehe da: Der Text war klar und leserlich und das Bild sieht allgemein realistischer aus.
Danach habe ich mit DALL-E auf dem gleichen Bild den Prompt: “Der Himmel soll rosa sein” getestet. Und wie zu sehen ist (Bild 3), hat sich das Bild eigentlich komplett geändert und nicht nur mein gewünschtes Element.
Bei dem Bild von 4o habe ich etwas Ähnliches getestet: „Das Spielzeug soll rot sein.“ (Bild 4) Und siehe da: Das Spielzeug wurde tatsächlich rot eingefärbt, während der Rest des Bildes zumindest weitgehend unverändert blieb.
Lediglich einige kleine Details wie Kontraste und die Nase wurden minimal angepasst. Das zeigt, dass mit ChatGPT-4o zur Bildgenerierung die KI gezielte Änderungen umsetzen kann, auch wenn sie nicht immer perfekt arbeitet. OpenAI selbst betont, dass es weiterhin zu kleineren Abweichungen kommen kann.
🎯 Gezielte Bildbearbeitung mit ChatGPT-4o statt kompletter Neuerstellung
Eine weitere große Neuerung ist die Möglichkeit, einzelne Elemente in einem Bild zu verändern, anstatt das gesamte Bild neu generieren zu müssen.
Ein Beispiel: Bisher war es nicht möglich, nachträglich nur das Spielzeug eines Hundes in einem KI-generierten Bild zu ändern. Jetzt geht das. Diese Funktion ermöglicht eine genauere Kontrolle und macht die Bildgenerierung flexibler.
Darüber hinaus können Elemente in einer Serie von Bildern nun konsistent gehalten werden. Das bedeutet, dass sich OpenAIs Bildgenerierung besser für kleine Bildgeschichten oder Designs mit wiederkehrenden Elementen eignet.
⌛ Leicht verlängerte Generierungszeit mit ChatGPT-4o zur Bildgenerierung
Eine kleine Einschränkung gibt es jedoch: Die Generierung der Bilder dauert mit 4o etwas länger als zuvor mit DALL-E. Das liegt an den verbesserten Funktionen und der detaillierteren Bildbearbeitung.
❓ Wer besitzt die generierten Bilder von ChatGPT-4o
Auch die Frage des Urheberrechts hat OpenAI geklärt: Nutzerinnen und Nutzer, die die Prompts zur Bildgenerierung formulieren, sind auch die Besitzer der generierten Bilder.
Allerdings werden Metadaten des C2PA-Standards eingebettet, die die Herkunft der Bilder kennzeichnen und darauf hinweisen, dass sie von einer KI erstellt wurden. Zudem wurden Sicherheitsmaßnahmen implementiert, um beispielsweise die Erstellung von sexuellen Deepfakes zu verhindern.
❌ Herausforderung: Rechenleistung wird knapp
KI benötigt enorme Rechenleistung. OpenAI-CEO Sam Altman sagte dazu wortwörtlich: „Unsere GPUs schmelzen.“
Das bedeutet: Auch wenn 4o beeindruckende Fortschritte bringt, sind damit auch Herausforderungen verbunden. OpenAI arbeitet jedoch bereits daran, die eigene Infrastruktur weiter auszubauen.
➡️ Fazit: Ein großer Schritt nach vorne
Mit dem neuen Update, ChatGPT-4o zur Bildgenerierung einzusetzen, setzt OpenAI einen Meilenstein in der Bildgenerierung. Die Verbesserungen bei der Schriftdarstellung, gezielten Bildbearbeitung und Konsistenz über mehrere Bilder hinweg machen das Update besonders spannend.
Allerdings kommen diese Fortschritte mit höheren Rechenanforderungen einher. Die Zukunft wird zeigen, wie OpenAI diese Herausforderung meistert.
Was denkt ihr über das neue Modell? Schon ausprobiert? Schreibt eure Erfahrungen in die Kommentare!
🔎 Neugierig geworden?
Dann schau gerne auf unserem Blog vorbei – dort findest du noch mehr spannende Beiträge rund um KI.
📬 Noch mehr Updates gefällig?
Auf LinkedIn teilen wir regelmäßig Insights, Tools und News zu aktuellen Entwicklungen. Folge uns dort oder wirf einen Blick in unseren Newsletter – wir freuen uns auf dich!