Kollege Kowalzik, sein Skiroller und die Flausen der KI

Wie man mit Künstlicher Intelligenz ein Kopfbild für eine Sportseite produziert und sich dabei nicht ins Bockshorn jagen lässt

PORTALKIEKER

Am Anfang war das Nichts. Fachredakteur Andreas Kowalzik, zuständig fürs Fach Sport und das Themenportal „Schule bewegt“, suchte in Stockfoto-Datenbanken verzweifelt nach einer kostenfreien Illustration für eine neue Seite zum Rollskifahren. Das ist Langlauf-Training für den Sommer. Auf Brettln, die Rädern haben. Rollschuhe auf Latten.

Andreas Kowalzik ließ sich mehr als 30 Bilder erstellen, bis er zufrieden war

Seit der Harz sogar im Januar keine schneesicheren Loipen mehr hat, brauchen Nachwuchsläufer bei „Jugend trainiert für Olympia“ Ersatz. Also beschaffte das Land Sommer-Ausrüstung, die im August in den Verleih geht.

Im Harz gibt es bei Clausthal-Zellerfeld nämlich eine Skirollerstrecke (4 km), und auch an Talsperren und auf Radwegen sieht man Skipiloten sommers über den Teer sausen.

Allerdings ist der Trendsport an Schulen beliebter als bei Fotografen. Was Kowalzik fand, passte weder vom Motiv noch vom Format. So wagte er die kreative Eigenproduktion mit Künstlicher Intelligenz. Es wurde ein Langlauf mit Hindernissen. Sein Slalom der KI-Prompts ist lehrreich für alle, die als Fotoersatz selbst KI-Illustrationen erstellen.

Kowalzik ließ mehr als 30 Bilder schaffen

Andreas Kowalzik gehört der Schulleitung der Oberschule am Goldbach in Langwedel bei Verden an. Er ist Didaktischer Leiter. Seine Berufsehre: Methodisch vorgehen – und kritisch reflektieren.

„Der Prozess war tatsächlich schwieriger und komplexer, als ich es erwartet hatte“, sagt Kowalzik. Er hat mehr als 30 Bilder generieren lassen, bis er das passende Motiv auf der Seite hatte. Die Chefredaktion war beteiligt, denn KI-Bilder sind im Portal genehmigungspflichtig.

Das erste Ergebnis vermochte nicht zu überzeugen. Die Figur wirkt statisch und etwas künstlich. Die Rollskischuhe sehen nicht realistisch aus. Und: Kennen Niedersachsens Straßen gelbe Mittelstreifen? Nein. § 39 (5) StVO sagt: „Sie sind grundsätzlich weiß. Nur als vorübergehend gültige Markierungen sind sie gelb.“ Es ist wohl ein amerikanischer Wald.

Es gehört zum „Bias“ der KI-Programme, dass sie sich ihr Basiswissen aus US-Quellen holt. Deutsche weiße Mittelstreifen also. Die sind allerdings selten allein. Wo ein Mittelstrich ist, ist normalerweise auch eine weiße Fahrbahnbegrenzung.

KI-Bild Skiroller 1: Da fehlt die sportliche Dynamik, und muss man auf seinen Popo gucken? Eine gelbe Mittellinie als Fahrbahntrenner gibt es auf deutschen Straßen fast nie – außer an Baustellen und als Provisorium. Da hat die KI wohl an Amerikas Straßen gedacht.

Das Programm wird belehrt und pinselt etwas Neues. Der Rollermann ist nun richtig flott, seine Sportgeräte an den Füßen sind länger. Dynamisch saust er die Straße entlang. Doch dann stört etwas Anderes. Die KI hat brav links und rechts Leitpfosten aufgestellt, Ordnung muss sein auf deutschen Straßen. Allerdings stecken die Pfosten falsch herum. Rechts sind die rechteckigen Reflektoren richtig, links müssten es zwei Kitzenaugen sein. Weiß jeder. Nur die KI nicht.

KI-Bild Skiroller 2: Als Sport Rollski fahren auf einer Straße ist nach StVO verboten. Außerdem sind die Leitpfosten verkehrt.

Sollte sich unser Athlet nicht weiter rechts halten, aus Rücksicht auf andere Verkehrsteilnehmer? Selbst wenn auf dem durchgezogenen Mittelstreifen niemand in dieser Kurve überholen darf. Moment einmal – darf er überhaupt auf einer solchen Straße fahren?Nein, darf er nicht.

Amtliches StVO-Verkehrszeichen 1020-13 „Inline-Skaten und Rollschuhfahren frei“

Das KI-Bild stellt einen Rechtsbruch dar. § 31 (1) StVO sagt: „Sport und Spiel auf der Fahrbahn, den Seitenstreifen und auf Radwegen sind nicht erlaubt.“ Damit sind Rollski vom deutschem Asphalt verbannt. Es sei denn, irgendwo steht ein Zusatzschild nach § 31(2) „Inline-Skaten und Rollschuhfahren zugelassen“. Aber auch da heißt es, unser Rollsportler habe sich „am rechten Rand in Fahrtrichtung zu bewegen und Fahrzeugen das Überholen zu ermöglichen“. Auf dem KI-Bild scheint er auf das Gebot zu pfeifen.

Es wäre wohl besser, die Sportbahn sehe weniger wie eine öffentliche Straße aus. Weiße Linien und Pfosten wieder raus, Straße schmaler. Die Betrachterin soll den Eindruck haben, es sei eine legale Sport- oder Mischnutzungsstrecke für rollende Fußgänger.

KI-Bild Skiroller 3: Straßenmarkierung entfernt, nun ist es rechtskonform

Das sah schon ganz gut aus. Jetzt kam es für Kowalzik nur noch darauf an, den Rollermann so zu platzieren, dass er ihm beim Bildschnitt für das flache Headerbild weder Helm, Füße noch Schatten ansäbelt. Der Computer schob den Sportler weiter nach hinten in die Bergidylle.

KI-Bild Skiroller im Sportprojekte-Segment des Themenportals „Schule bewegt“.

Vom präzisen Befehl zur Finesse im Detail

Andreas Kowalzik hat seine Promptliste für den Redaktionsbrief geöffnet, damit Kolleginnen und Kollegen den Vorgang nachvollziehen können.

Sein Ausgangspunkt war ChatGPT. Er wusste nicht genau, wie man einen präzisen Befehl für die Bildproduktion formuliert. Also fragte er und ließ sich einen geeigneten Prompt erstellen.

Kowalzik: „Ich möchte eine Person, die auf einer Straße im Wald auf Skirollern unterwegs ist. Die Person soll von hinten zu sehen sein. Sie trägt eine Schutzausrüstung mit einem Helm.“
ChatGPT: „Super, danke für die Details! Hier ist ein ausgearbeiteter Prompt für dein Bild: ,Eine einzelne Person fährt auf Skirollern eine asphaltierte Straße entlang, die durch einen dichten, grünen Wald führt. Die Szene ist in der Mitte des Bildes zentriert. Die Person ist von hinten zu sehen, trägt einen Helm und vollständige Schutzausrüstung (Ellbogen-, Knie- und Handschutz). Es ist Tag, das Sonnenlicht fällt gefiltert durch die Blätter. Realistischer Stil, natürliche Farben, hohe Detailgenauigkeit.’“

Er ließ sich eine englischsprachige Prompt-Version mitliefern. Damit sind die KI-Bildgeneratoren nämlich weniger fehlerträchtig.

Kowalzik gab ChatGPT als nachträgliche Ergänzung mit: „Ich brauch’ das Foto in einem horizontalen Format“. ChatGPT fügte nicht nur den Wunsch nach dem Querformat ein, sondern gab zusätzliche Tipps.

ChatGPT: „Wenn du möchtest, kann ich den Prompt auch auf eine bestimmte Bildgröße oder ein Seitenverhältnis wie 16:9 oder 3:2 anpassen – oder weitere Details wie Jahreszeit, Geschlecht der Person, oder Kameraperspektive (z. B. leicht von unten oder auf Augenhöhe) einbauen. Sag einfach Bescheid!“
Kowalzik: „bitte im Format 16:9“
ChatGPT: „Klar! Hier ist der optimierte Prompt mit dem Hinweis auf das 16:9-Format – ideal für breite, horizontale Darstellungen… Du kannst diesen Prompt direkt in den meisten Bildgeneratoren wie Midjourney, DALL·E, Leonardo oder Stable Diffusion verwenden. Falls du möchtest, dass ich das Bild für dich generiere – sag einfach Bescheid!“
Kowalzik: „und die Person soll weiter hinten im Bild zu sehen sein“
ChatGPT: „Alles klar! Ich ergänze den Prompt so, dass die Person weiter entfernt im Bild zu sehen ist – also kleiner im Bildausschnitt, was zusätzlich Tiefe und Weite erzeugt. Hier ist der überarbeitete Prompt…“

Immer einen neuen Rat parat

Kowalzik probierte den von ChatGPT empfohlenen Prompt beim KI-Generator Sora aus. Das klappte nicht wie erwartet. Er beschwerte sich bei ChatGPT.

Kowalzik: „Sora erstellt mir nur Bilder im Hochkantformat“
ChatGPT: „Ah, verstanden! Sora (wie viele KI-Bildgeneratoren, z. B. Midjourney oder einige Versionen von DALL·E) erstellt standardmäßig Bilder im Hochformat, wenn man nichts anderes angibt – und manche Plattformen lassen das Format (noch) nicht frei wählen. Hier sind deine Optionen…“

Kowalzik ließ sich erklären, wie man die Beschränkungen austricksen kann – etwa, indem man eng definierte Formatvorgaben eingibt. Sollte das nicht funktionieren, so schlug ChatGPT vor, solle er das Bild einfach später in einem Bildbearbeitungsprogramm zuschneiden und skalieren. „Achte beim Zuschneiden darauf, dass der ,weite Bildlook’“’ erhalten bleibt (also mehr von der Umgebung sichtbar bleibt und die Person kleiner im Bild ist)“, riet ChatGPT.

Außerdem erinnerte es an die offensichtliche Alternative: nämlich einen anderen Generator zu verwenden, der Querformate explizit unterstützt. Welche das sind, wusste ChatGPT gleich zu sagen: DALL·E (z. B. in ChatGPT mit Bildgenerator), Leonardo.Ai, Invoke AI oder Stable Diffusion Web UI (mit Aspect Ratio Einstellung).

ChatGPT: „Möchtest du, dass ich das Bild jetzt im 16:9-Querformat für dich generiere? Dann kann ich das hier direkt übernehmen. Sag einfach Bescheid!“
Kowalzik: „Erstelle mir einen Prompt, bei dem die Person noch weiter hinten im Bild steht.“
ChatGPT: „Natürlich! Hier ist eine überarbeitete Version des Prompts – so, dass die Person sehr weit hinten im Bild steht, fast wie ein kleines Detail in einer weiten Landschaft. Dadurch entsteht eine starke Tiefenwirkung und ein Gefühl von Weite und Einsamkeit. … Wenn du willst, kann ich diesen Prompt in ein Bild umsetzen. Alternativ kann ich dir auch noch Versionen im Nebel, bei Sonnenuntergang oder in herbstlicher Stimmung schreiben – je nachdem, was du dir vorstellst.“
Kowalzik: „Kannst du mir den Prompt verfeinern? Die Person soll noch realistischer wirken. Die Skiroller sollen auch noch realistischer wirken. Auf der Straße soll kein Mittelstreifen zu sehen sein.“
ChatGPT: „Perfekt – mit diesen Details lässt sich der Prompt noch deutlich realistischer und spezifischer gestalten. Ich habe deinen Wunsch nach höchstmöglichem Realismus, realistischen Skirollern, keinem Mittelstreifen auf der Straße und einer weit entfernten, aber klar erkennbaren Person berücksichtigt. … Sag mir gern Bescheid, wenn du Varianten (z. B. bei Wetter, Jahreszeit oder Kameraeinstellung) möchtest oder ich das Bild direkt für dich erzeugen soll.“

Nein, das wollte Kowalzik nicht. Er hatte sich schon bei diversen KI-Bildwerkzeugen umgesehen, wie sie inzwischen von vielen Fotoplattformen angeboten werden. Fündig wurde er bei Freepik, das Kowalzik bereits von Fotorecherchen kannte. „Diese Plattform bietet die Möglichkeit, verschiedene KI-Bildgeneratoren zu nutzen, z. B. Ideogram3, Seedream, Flux, Google Imagen, Mystic. Alle Modelle haben unterschiedliche Stärken und Schwächen.“

Viele Optionen – und viel Kummer für Kowalzik. „Einige Promptanweisungen wurden ignoriert oder falsch umgesetzt. Es war sehr schwierig, bestehende Elemente wie z. B. Fahrbahnmarkierungen oder Schilder auszulassen.“

So kam Kowalzik zu ChatGPT zurück – mit einem ganzen Arm voller Bildversuche. Er fütterte ChatGPT mit dem bis dahin besten Entwurf.

Kowalzik: „Kannst du mir ein sehr ähnliches Bild generieren? Allerdings müsste die Straße schmaler sein. Es dürfen keine weißen Streifen auf der Fahrbahn erkennbar sein. Auch sollten keine Schilder oder seitlichen Fahrbahnmarkierungen auf dem Bild sein. Kannst du das versuchen?“

Mit einigen Nachbesserungen kam er schließlich beim Wunschbild für seine Bildungsportal-Seite an und lud sie nach Genehmigung durch die Chefredaktion hoch.

„Es war für mich ein interessanter Lernprozess“, resümiert er, „bei dem ich aber auch irgendwie ganz am Anfang stehe. Das Prompting ist das A und 0. Hier werde ich stärker einsteigen, um schneller zu guten Ergebnissen zu kommen.“ Dass er weiter experimentieren will, steht für ihn fest. „Von der inzwischen möglichen fotorealistischen Qualität bin ich beeindruckt.“

1. Juli 2025