Testen von KI

Post date: Nov 1, 2025

Ich arbeite seit langem im Bereich der Software-Entwicklung. Und dabei habe ich auch etliche Zeit mit dem Testen von Programmen verbracht. Das geht ungefähr so:

Man bekommt ein Programm, das bestimmte Spezifikationen erfüllen soll
Man testet die in der Spezifikation genannten Detail und sieht, ob sie wie gewünscht funktionieren oder nicht
Dann testet man noch einige Fälle, die zwar nicht in der Spezifikation genannt sind, aber die sinnvoll möglich sein sollten.
Weiter werden auch Fälle, die nicht möglich sein sollten getestet, um zu sehen dass das Programm hier eine Fehlermeldung ausgibt

Wenn es sich nicht um kleine Programme mit begrenztem Funktionsumfang handelt, dann ist es schwer, alle möglichen Fälle zu testen. Mir ist es öfter passiert, dass ein Programm alle Tests erfoglreich absolviert hat und bei Kunden viele Jahre im Einsatz war und doch kam es dann irgendwann zu einem Fehler. Die Analyse hat dann gezeigt, dass der Fehler schon lange vorhanden war, aber dieser Fall eben sehr selten war.

Daraus lernt man, dass Programme selbst dann nicht fehlerfrei sein müssen, wenn sie schon länger gut funktioniert haben.

Was ist nun aber mit KI? KI als Anwendung ist noch viel komplexer als die meisten Programme. Zusätzlich ist die Spezifikation von "richtigem" Ergebnis sehr vage bis gar nicht vorhanden. Gut, wenn die KI mit wohl formulierten Sätzen antwortet, dann ist das sicher beeindruckend. Wenn sie aber falsche Informationen in perfekten Sätzen liefert, dann ist das sogar sehr gefährlich.

Eine KI besteht aus einem Modell, dass mit Trainingsdaten erstellt wurde. Das Modell ist grob gesagt eine Menge von vielen, vielen Zahlen. Dann gibt es Programme, die diese Zahlen verwenden um aus dem Prompt das Ergebnis zu berechnen. Was kann da schon schief gehen?

Da die Beurteilung der Ergebnisse schwierig ist, können an verschiedensten Stellen Fehler passieren. die man nicht leicht findet:

Das Programm, das die KI-Modell verwendet, könnte Fehler enthalten. Auch kann die CPU, auf der das Programm ausgeführt wird, Fehler enthalten. Solche CPU-Fehler sind in den letzten Jahren durchaus vorgekommen. Und zu guter letzt kann das trainierte Modell auch Fehler enthalten.

Ich will damit nicht sagen, dass KIs kein Anwendungsfeld haben. Es lässt sich sogar recht leicht beschreiben:

Wenn man ein Problem hat dessen Lösung komplex ist, bei dem man aber (leicht) nachprüfen kann, ob die Lösung richtig ist, dann ist eine KI eine gute Anwendung

Die dreidimensionale Struktur von Proteinen ist so ein Beispiel. Wenn eine KI eine Lösung liefert, dann kann man relativ leicht sehen, ob diese Lösung funktioniert oder nicht.

Oder bei der Berechnung der kürzesten Route von A nach B, dann kann man relativ schnell sehen, ob die Lösung ausreichend gut ist oder ob die Route z.B über Flüsse ohne Brücke verläuft oder offensichtlich einen zu weiten Weg wählt.

Eine weitere Anwendung von KI ist es, weitere Ideen zu liefern, die man vielleicht selbst nicht berücksichtigt hat. Ein virtuelle Unterhaltung mit einer KI kann helfen, den eigenen Standpunkt zu sichern, zu erweitern oder ganz zu ändern. Das muss aber mit hinreichender Kritik und Überprüfung einhergehen. Trotzdem kann das sehr hilfreich sein.
Ein Kollege hat das schon vor langer Zeit praktiziert, indem er seine Überlegungen jemand anderem erzählt hat. Dabei war es unerheblich, ob der Gesprächspartner etwas von der Sache verstand. Meist fielen ihm seine Denkfehler beim erklären selber auf.

Man muss KI als wertvolles Werkzeug verstehen, man darf aber nicht erwarten, dass eine KI uns die Schlussfolgerungen und die abgeleiteten Aktion abnimmt.

Google Sites

Report abuse