"Mache mir ein Alphabet Poster für ein Kinderzimmer mit freundlichen Früchten" Zwei KI-Modelle, dieselbe Aufgabe. Einmal ChatGPT, einmal Google Gemini (Nanobanana).

Schaut man sich die Bilder an, sieht auf dem allerersten Blick erst mal alles ganz passend aus. Schön bunt, viele Buchstaben, viele Früchte.

Bei Gemini sieht man dann zwischen H and I einen ersten Bildfehler. Der Buchstabe J kommt zweimal vor. Und der Buchstabe U hat sowohl den Text als auch das Bild für Traube.

ChatGPT sieht etwas professioneller und sauberer aus. Schöne Illustrationen, einheitlicher Stil, alle 26 Buchstaben da. Sie scrollen durch und denken: passt. Schauen Sie nochmal genauer hin.

Einige kommen davon, dass das Modell intern auf Englisch gedacht hat: Cherry, Raspberry, Tangerine. Bei den anderen Bildfehlern kann man wirklich nur mutmaßen was da schief gelaufen ist.

Die Bilder sind schön. Aber der Inhalt ist ohne weitere Nachbearbeitung nicht benutzbar.

Und genau das ist der Punkt.

Das gefährlichere Poster ist nicht das offensichtlich kaputte. Es ist das, das souverän aussieht und beim flüchtigen Blick durchrutscht. Bei einem Kinderposter ist das maximal peinlich. Bei Code kann daraus ein Desaster werden.

KI generiert Funktionen, die korrekt aussehen. Variablennamen, Syntax, Struktur – alles plausibel. Aber das Modell prüft nicht, ob die Logik stimmt, ob Edge Cases abgedeckt sind oder ob die Datenbank-Query unter Last zusammenbricht. Es folgt Mustern, nicht Bedeutung. Woher auch, es hat ja überhaupt keine Ahnung was es da tut 😂

Eine Stanford-Studie von Perry et al. (2023, ACM CCS) fand heraus: Entwickler mit KI-Assistenten schrieben unsichereren Code – und hielten ihn gleichzeitig für sicherer als die Kontrollgruppe ihren Code.

Das ist das eigentliche Problem. Nicht dass KI Fehler macht. Sondern dass sie überzeugend aussieht, während sie Fehler macht.

Deshalb braucht es Menschen mit Architektur-Erfahrung. Jemand, der weiß, wo Systeme typischerweise brechen. Der Race Conditions sieht, bevor sie zu Incidents werden. Der weiß, dass „Cherry” auf Deutsch nicht mit C anfängt – und dass die Funktion, die so elegant aussieht, im Fehlerfalleinen Buffer Overflow produziert

KI ist wie ein guter Junior: fleißig, ehrgeizig frisch von der Uni, weiß alles, hat aber Null Erfahrung. Ist sich dafür aber meistens ziemlich sicher. 😉

Ein menschlicher Praktikant würde wahrscheinlich irgendwann mal fragen, auf jeden Fall wenn er nicht weiterkommt. Die KI nicht. Die liefert. Mit Lächeln.

Wenn Sie wissen wollen, wie KI-generierter Code in Ihrem System sinnvoll geprüft und abgesichert werden kann: melden Sie sich gerne, ich schaue mir das gemeinsam mit Ihnen an und Sie können unser Review-System direkt testen.

Fortsetzung folgt!