Ich habe einer KI ermöglicht, ihren eigenen Code zu testen. Bis runter auf die Hardware-Ebene inklusive flashen und Schnittstellen auslesen

Kurz zum Aufbau: Ich entwickle nebenbei ein kleines IoT-Projekt. Ein ESP32 mit einem SCD41 CO2-Sensor, der seine Messwerte über Bluetooth bereitstellt. Klein genug, um es zu überschauen. Komplex genug, um verschiedene Frameworks und Skills auszuprobieren. Umgesetzt als Spec Driven Development.

Damit die KI den ganzen Loop selbst abdecken kann, also Code generieren und auch verifizieren, habe ich ihr ein paar Werkzeuge gebaut:

Ein Skript zum Kompilieren und Flashen. Ein Tool zum Auslesen der seriellen Schnittstelle. Ein Kommandozeilen-Tool, um Bluetooth-Kommandos abzusetzen und das Gerät darüber zu testen.

Mein Problem: Das Pairing klappte, aber ich kam nicht an die Daten. Bluetooth meldete "insufficient permissions".

Mehr Informationen gab ich der neuen Claude-Code-Session nicht. Nur den Aufruf des Bluetooth-Skripts und die Fehlermeldung. Zwei Zeilen. Dazu lag das Projekt mit der technischen Dokumentation und den CLAUDE .md-Files vor.

Das reichte.

Es folgte ein dreißigminütiger Loop. Die KI stellte drei Theorien auf, woran es liegen könnte. Sie setzte jede einzeln um, flashte den Code, prüfte über serielle Schnittstelle und Bluetooth, verwarf. Beim dritten Versuch lag sie richtig. Die Theorie bestätigte sich.

Ich saß daneben und las die Ausgaben, die in rasender Geschwindigkeit über den Bildschirm liefen. Eine halbe Stunde lang habe ich mit gelesen wofür ich selbst locker ein bis zwei Tage gebraucht hätte. Inklusive schlechter Laune..

Überrascht hat mich, wie effektiv Hardware- und Embedded-Entwicklung werden, wenn man der KI die Möglichkeit gibt, den Fehler-Loop bis auf die Hardware-Ebene selbst zu bedienen.

Bald mehr dazu an dieser Stelle.

Habt ihr schon mit automatisierten Feedback Loops gearbeitet? Würde mich freuen, davon zu hören.