Kreativ mit KI: Was moderne Bildgeneratoren (nicht) können – und warum trotzdem der Mensch das letzte Wort hat.  

Bilder aus dem Nichts – oder besser gesagt: aus ein paar Worten. Klingt für viele Menschen noch surreal. Das ist jedoch längst Alltag in vielen Marketing- und Kreativagenturen.  Auch bei uns in der ersten Konzeptionsphase und bei der Ideenrecherche. Denn sogenannte Bilderstellungs-KIs wie DALL·E 3, MidJourney, Stable Diffusion oder Adobe Firefly haben die Art verändert, wie wir grafisch arbeiten. Und ja – das ist ziemlich beeindruckend. Aber auch klar: Allein lassen wir die Tools nicht arbeiten. Denn was gut aussieht, zielgerichtet wirkt und zur Markenidentität unserer Kunden passt – das entscheidet nach wie vor der Kopf (und das Auge) eines Menschen. Also wir in der Grafik.  

Aktuell gängige Tools:

DALL·E 3 (OpenAI): Besonders für die hochqualitative Generierung realistischer Bilder aus Textbeschreibungen sowie einfache Bildbearbeitung.

Midjourney: Fokus auf künstlerische, oft stilisierte und ästhetisch ausgearbeitete Ergebnisse.

Stable Diffusion: Open-Source-Alternative mit hoher Flexibilität, z. B. für eigene Modelle und individuelle Workflows.

ComfyUI: Node-basierte Oberfläche für Stable Diffusion, sehr flexibel, aber mit höherer Einstiegshürde.

Adobe Firefly: Integration in die Adobe Creative Cloud und rechtliche Vorteile durch lizenzierte Trainingsdaten.

FLUX.1: Leistungsstarkes Modell mit hoher Detailtreue, besonders bei komplexen Bildinhalten.

Freepik AI Image Generator: Plattform mit Zugriff auf verschiedene Modelle und Stile.

NanoBanana Pro: Schnelle und zugleich überraschend realistische Bildgenerierung mit hoher Bildnähe.

Wie funktioniert eine Bilderstellungs-KI eigentlich?

Die Technik dahinter nennt sich Text-zu-Bild-Generierung. Das Prinzip: Nach der Eingabe des Prompts (= der Aufgabenstellung an die KI) wird diese analysiert und daraus ein passendes Bild erzeugt. Oder besser gesagt: eine wahrscheinliche visuelle Umsetzung dessen, was in unzähligen Bilddatenbanken vorher gelernt wurde. 

Basis sind neuronale Netzwerke, trainiert mit Millionen von Bild-Text-Paaren. Diese Systeme erkennen Muster, Stile, Strukturen – und setzen sie neu zusammen. Klingt technisch? Ist es auch. Aber spannend wird’s, wenn diese Technologie kreativ genutzt wird. Und genau da kommen wir ins Spiel. 

Was die Tools können – und was nicht

Ob realistische Szenen (DALL·E 3), künstlerisch-experimentelle Visuals (MidJourney) oder besonders DSGVO-konforme Bildbearbeitung über Adobe Firefly: Die Möglichkeiten sind beeindruckend. Für uns als Agentur bedeutet das: 

Schnellerer Zugang zu Ideen

Kostenersparnis bei bestimmten Prozessen

Mehr kreative Freiheit beim Prototyping

Aber: Es braucht Erfahrung im Prompting, Wissen um rechtliche Fallstricke (Urheberrecht! DSGVO!) und vor allem – ein Gespür für Design, Zielgruppen und Ästhetik. Das liefert keine KI. Das liefern wir. 

Beispiel gefällig? Gerne.

Nehmen wir an, wir möchten einem Fotografen ein Briefing für ein Fotoshooting geben. Die erste Idee, sprich die angedachte Bildkonzeption – Sujet, Lichteinfall, Winkel, etc. – bauen wir beispielhaft und als groben Entwurf mit der KI auf. Zuvor wurde hier mit  Photoshop ein Composing erstellt, Stockmaterial im Netz gesucht etc. …  So kann die KI im Vorfeld eine grobe Skizze kreieren und wie dem Fotografen zügig ein visuelles Beispiel liefern. Das erleichtert das konkrete Briefing.  

Beispielprompt

Generate an image following this description:
STYLE: Mid-length Shot | GENRES: Employer Branding, B2B, Industrial, Logistics | EMOTION: Confident, authentic, grounded | SCENE: An authentic warehouse employee with short hair, non-model appearance, standing in a relaxed posture with arms loosely crossed, looking naturally into the camera inside a real logistics warehouse with high shelves and a slightly blurred forklift in the background | TAGS: Logistics, Warehouse, Skilled Worker, Team Spirit, Industrial Environment, Authentic Workwear, Professionalism, Employer Branding | CAMERA: Sony A7R IV | FOCAL LENGTH: 85mm | SHOT TYPE: Eye-level, slightly imperfect framing | COMPOSITION: Depth of Field, subject in foreground, natural leading lines, candid perspective | LIGHTING: natural industrial lighting, mixed light sources, slightly uneven, no dramatic studio lighting | PRODUCTION: documentary-style photography, editorial realism, authentic casting, non-model | DETAILS: realistic skin texture, visible pores, slight imperfections, subtle asymmetry, not overly polished | TIME: Daytime | LOCATION TYPE: real indoor logistics warehouse —ar 3:2

Bild-Ergebnis:

Doch wie wird aus einem Text ein Bild?

Ein Prompt beschreibt in Worten, was auf dem Bild zu sehen sein soll, z.B. Motiv, Stil, Licht oder Stimmung. Eine KI übersetzt diese Beschreibung in visuelle Elemente, indem sie auf das zurückgreift, was sie aus vielen bestehenden Bildern und Bildbeschreibungen gelernt hat. Schritt für Schritt „baut“ sie daraus ein neues Bild auf, das zur Eingabe passt.

Das Ergebnis ist keine exakte Umsetzung wie bei einer technischen Zeichnung, sondern eine Interpretation des Prompts, deshalb können Details je nach Formulierung variieren.

Für eine erste kreative Annäherung an ein mögliches Shooting oder eine Kampagnenidee kann es hilfreich sein, visuelle Stimmungen schnell greifbar zu machen.

Mithilfe von KI lassen sich auf Basis eines Logos oder einer Markenidee erste Moodbilder generieren – etwa durch stilistische Interpretation oder bewusste Verfremdung. So entstehen visuelle Impulse, die als Ausgangspunkt für die weitere kreative Entwicklung dienen können.

Was macht eine präzise Prompting-Struktur aus?

Eine typische Prompt-Struktur z.B. für MidJourney besteht aus vier Teilen: Quelle, Bildbeschreibung, Details und Parameter. Man kann zuerst eine Quelle angeben, zum Beispiel ein Referenzbild. Danach beschreibt man in der Bildbeschreibung möglichst klar, was im Bild zu sehen sein soll. Mit zusätzlichen Details wie Kamera, Perspektive oder Lichtstimmung wird das Ergebnis genauer gesteuert. Zum Schluss können Parameter ergänzt werden, zum Beispiel für das Seitenverhältnis oder andere Einstellungen des Algorithmus.

Ein weiteres Beispiel? Kommt sofort.

Nehmen wir an, wir möchten unser Jahresmotto 2026, den regionalen Vogelschutz, in Szene setzen. Dieses Mal suchen wir ein Bild, das zwar auf einem realistischen Fotomotiv basiert, das aber durch unser Branding einen aufmerksamkeitsstarken, bewusst werblichen Touch bekommt.

Beispielprompt

Generate an image following this description:
STYLE: Mid-length Shot | GENRES: Lifestyle, Nature Editorial, Wildlife Photography | EMOTION: Calm, Peaceful and Natural | SCENE: A highly realistic wooden birdhouse in a natural garden setting, whose structure is subtly inspired by a modern geometric logo. The design translates key visual elements into physical form, subtly echoing the shape of a slightly tilted uppercase “B”, with clean geometric proportions and a distinct horizontal base element suggesting an underline. The birdhouse is made of aged wood and lightly weathered metal, with subtle teal/petrol accents integrated into the materials while maintaining a natural appearance. It is placed among green trees and soft foliage. A Eurasian blue tit sits naturally on the edge of the birdhouse, with detailed feathers in vibrant blue and yellow tones and a lifelike posture. The background is softly blurred, creating a calm and atmospheric scene. | TAGS: Birdhouse, Blue Tit, Nature, Wildlife, Garden, Photorealistic, Soft Aesthetic, Natural Materials, Minimal Design Influence | CAMERA: Sony A7R IV | FOCAL LENGTH: 85mm | SHOT TYPE: Rule of thirds | COMPOSITION: Depth of field, subject in foreground, layered composition with soft background | LIGHTING: Soft natural daylight filtering through trees | PRODUCTION: Lifestyle Photography, Nature Editorial | TIME: Morning | LOCATION TYPE: Outdoor garden, natural environment | ASPECT RATIO: —ar 2:3

Bild-Ergebnis:

Die rechtliche und ethische Seite: Wer ist Urheber eines KI-generierten Bildes? 

Ein aktuell viel diskutiertes Thema: Wer ist Urheber? Und: Wer trägt die Verantwortung, wenn ein KI-generiertes Bild problematisch ist? Die kurze Antwort: Es kommt darauf an – vor allem auf den menschlichen Anteil.

Denn rein KI-generierte Bilder sind in der Regel nicht urheberrechtlich geschützt, da das Urheberrecht eine menschliche Schöpfung voraussetzt. Verantwortlich für die Nutzung bleibt jedoch immer der Mensch bzw. das Unternehmen – etwa bei Urheber-, Marken- oder Persönlichkeitsrechten.

Tools wie Adobe Firefly kennzeichnen Inhalte mit sogenannten Content Credentials, also digitalen Herkunftsnachweisen. Eine gute Lösung für mehr Transparenz – aber kein rechtlicher Freifahrtschein. Gleichzeitig entwickelt sich die Regulierung weiter, etwa durch den EU AI Act, der künftig strengere Anforderungen an Transparenz und Kennzeichnung stellt.

Auch ethische Fragen spielen zunehmend eine Rolle: 

Reproduzieren KI-Bilder diskriminierende oder stereotype Inhalte?

Werden reale Künstler, Fotografen oder Illustratoren ungewollt kopiert oder verdrängt?

Wir als Kreativteam setzen KI verantwortungsvoll und bewusst ein – nicht als Ersatz für Originalität, sondern als Ergänzung. Und mit einem kritischen Blick auf Inhalte, Ästhetik und Wirkung. 

DSGVO als Besonderheit in Deutschland

Gerade in Deutschland gilt: Bei allem, was personenbezogene Daten berührt – etwa bei der Bearbeitung von Porträts, Gesichtern oder Aufnahmen mit Mitarbeitern – greift die Datenschutz-Grundverordnung (DSGVO). Viele KI-Tools sind international ausgerichtet und berücksichtigen diese Anforderungen nicht automatisch. Wir schon – und beraten unsere Kunden dabei individuell.

Fazit: Kreativität mit neuen Werkzeugen

Bilderstellungs-KIs sind mehr als ein Hype – sie sind mittlerweile Bestandteil moderner Gestaltung. Richtig eingesetzt, können sie Prozesse beschleunigen und neue Ideen möglich machen. Aber sie ersetzen keine fundierte Designkompetenz. Deshalb gilt: Gute Gestaltung beginnt mit einem klugen Konzept. Und endet mit einem prüfenden, kreativen Blick. KI in der Gestaltung ist also kein Ersatz, sondern ein Werkzeug. Was sich verändert, ist die Geschwindigkeit und vielleicht auch die Herangehensweise. Aber: Emotion, Kontext und Markenverständnis bleiben menschlich. Und das ist auch gut so. 

Sie haben Wünsche für das Marketing Ihres B2B-Unternehmens? Wir beraten sie gerne. 

Jacqueline Wilkop

Unsere versierte Grafikerin ist hochkreativ und superpräzise: Als ausgebildete Mediengestalterin und studierte Kommunikationsdesignerin mit geschultem Auge und viel Erfahrung sorgt sie bei uns dafür, dass Anzeigen, Broschüren und Co immer ansprechend und einwandfrei gestaltet sind. Die KI ist für sie spannend, da sie hier immer wieder neue Tools und Programme testen kann! jw@bkomm.media

Kreativ mit KI: Was moderne Bildgeneratoren (nicht) können – und warum trotzdem der Mensch das letzte Wort hat.

Aktuell gängige Tools:

Wie funktioniert eine Bilderstellungs-KI eigentlich?

Was die Tools können – und was nicht

Beispiel gefällig? Gerne.

Doch wie wird aus einem Text ein Bild?

Ein weiteres Beispiel? Kommt sofort.

Die rechtliche und ethische Seite: Wer ist Urheber eines KI-generierten Bildes?

DSGVO als Besonderheit in Deutschland

Fazit: Kreativität mit neuen Werkzeugen

Das könnte Sie auch interessieren

Kreativ mit KI: Was moderne Bildgeneratoren (nicht) können – und warum trotzdem der Mensch das letzte Wort hat.  

Aktuell gängige Tools:

Die rechtliche und ethische Seite: Wer ist Urheber eines KI-generierten Bildes? 

DSGVO als Besonderheit in Deutschland

Fazit: Kreativität mit neuen Werkzeugen