9. Juni 20266 Min. Lesezeit

Eine KI spricht in meinem Namen. Also habe ich sie getestet wie ein Produkt.

In meinem letzten Artikel steht ein Satz, der mich danach nicht losgelassen hat: KI kann deine Geschichte schreiben, aber sie kann nicht wissen, welche Version davon wahr ist.

Warum mich das beschäftigt hat: Meine Website hat einen Chat. Besucher stellen ihm Fragen zu meinem Werdegang, meinen Projekten, meiner Denkweise. Er antwortet in meinem Namen, rund um die Uhr, ohne dass ich dabei bin. Jede Antwort ist, aus Sicht des Besuchers, von mir.

Und monatelang hatte ich keine Ahnung, ob diese Antworten gut sind.

Gelesen hatte ich sie natürlich. Eine Handvoll. Sie klangen richtig. Aber "klingt richtig" ist genau die Falle, die ich letztes Mal beschrieben habe. KI ist hervorragend darin, Text zu produzieren, der richtig klingt. Also habe ich getan, was ich jeder Organisation raten würde, die ein System in ihrem Namen sprechen lässt: aufgehört, Stichproben nach Gefühl zu lesen, und angefangen zu messen.

Ich hatte erwartet, Probleme bei der KI zu finden. Ich hatte nicht erwartet, dass sie eins bei mir findet.

Schritt eins: Lesen, bevor man misst

Die Versuchung ist, mit einer Metrik anzufangen. Widersteh ihr. Ich habe so angefangen, wie Hamel Husain es lehrt: echte Fragen stellen, jede Antwort lesen, von Hand labeln. Und erst danach entscheiden, was "schlecht" überhaupt bedeutet.

Also habe ich mich mit Fragen hingesetzt, die ein neugieriger Besucher wirklich stellt. Was macht Adrian eigentlich beruflich? Hat er Erfahrung mit GenAI in Unternehmen? Was glaubt er über KI-Adoption? Dann habe ich die Antworten langsam gelesen, wie ein Fremder sie lesen würde. Nicht überflogen auf Fakten, von denen ich wusste, dass sie drinstehen. Gelesen auf das, was die Antwort tatsächlich vermittelt.

Es war ernüchternd. Die Fehler fielen in Muster, für die ich vorab nie Checks entworfen hätte:

Der Chat beantwortete deutsche Fragen auf Englisch. Zuverlässig. Ein Besucher fragt "Was macht Adrian eigentlich beruflich?" und bekommt einen polierten englischen Absatz zurück. Die Ursache war am Ende Klempnerarbeit, keine Intelligenz: Die Spracheinstellung der Website überschrieb am Ende des Prompts die Sprache des Besuchers. Eine Zeile, falsche Stelle. Evals finden nicht nur Qualitätsprobleme. Sie finden Integrationsfehler, die kein noch so gutes Prompt-Tuning beheben würde.

Er kippte Listen aus, wo die Frage nach einer Geschichte verlangte. "Hat er Erfahrung mit X?" kam als Aufzählung von Tätigkeiten zurück. Technisch korrekt, völlig leblos. Niemand stellt diese Frage, weil er ein Inventar will. Man will wissen, was passiert ist, was schwer war, was sich verändert hat.

Er war generisch. Manche Antworten hätten Wort für Wort jeden KI-Verantwortlichen in jedem deutschen Unternehmen beschreiben können. Ich nenne das inzwischen den Namens-Test: Wenn man einen anderen Namen einsetzen kann und die Antwort noch funktioniert, sagt die Antwort nichts.

Er verwechselte die Perspektive. Fragen über "er" bekamen manchmal Antworten in "ich". Kleinigkeit, liest sich aber zutiefst seltsam. Eine KI, die nicht im Blick behält, wer gerade spricht, weckt wenig Vertrauen in alles andere, was sie sagt.

Vier Fehlermodi, jeder mit einem Aus-Schalter

Aus den Mustern wurde eine Taxonomie: Sprache, Story-Struktur, Spezifik, Stimme. Vier Fehlermodi, jeder mit einer strengen Definition.

Am längsten gedauert haben nicht die Definitionen. Sondern die Geltungsbereiche. Jede Regel braucht eine explizite Antwort auf die Frage: Wann gilt diese Regel NICHT? "Erzähl mir von seiner Erfahrung" verdient eine Geschichte. "Wie viele Leute hat er geschult?" verdient eine Zahl, und die Zahl dafür zu bestrafen, dass sie keine Geschichte ist, würde dem System nur Füllmaterial antrainieren. Ohne Geltungsbereiche produziert ein automatischer Richter Fehlalarme, bis man ihm nicht mehr traut. Und dann ist man wieder beim Bauchgefühl.

Die schwammigste Kategorie, "generisch", habe ich in drei Ja-Nein-Checks zerlegt: den Namens-Test, einen Check auf differenzierende Details (Zahlen allein zählen nicht, Rollenbezeichnungen allein zählen nicht, konkrete Entscheidungen und Situationen schon) und Buzzword-Dichte. Vage Kriterien erzeugen vage Richter. Checks, die man mit Ja oder Nein beantworten kann, erzeugen Richter, mit denen man streiten kann.

Der Richter muss es sich verdienen

Dann habe ich automatisiert, mit einem LLM als Richter. Aber ein Richter, den man nicht getestet hat, ist nur Bauchgefühl mit Zwischenschritten.

Also musste der Richter sich den Job verdienen. Ich habe ein Golden Set von Hand gelabelt: Frage-Antwort-Paare, saubere Treffer, absichtliche Fehler, Grenzfälle, mit meinem eigenen Urteil zu jedem Fehlermodus. Die erste Aufgabe des Richters war nicht, neue Antworten zu bewerten. Sondern meine Labels zu reproduzieren. Erste Version: vier von fünf. Über das fünfte haben wir gestritten, der Richter und ich, und der Streit war nützlich. Er hat eine schlampige Definition in meinem eigenen Bewertungsraster offengelegt.

Erst als der Richter mit mir bei Antworten übereinstimmte, die ich schon gelabelt hatte, durfte er Antworten bewerten, die ich nicht kannte.

Der Fix lag nicht da, wo ich ihn erwartet hatte

Mit laufender Pipeline zeigte sich ein Muster, das ich nicht vorhergesagt hätte: Enge Faktenfragen bestanden. Breite Fragen fielen durch. Gleiches Modell, gleicher Prompt, gleiche Wissensbasis.

Die Ursache war die Wissensbasis selbst. Ich hatte sie geschrieben wie eine Datenbank: dicht, faktisch, vollständig. Jeder Fakt war drin. Was fehlte, war der kausale Kitt. Warum eins zum anderen führte, was auf dem Spiel stand, was sonst passiert wäre. Ein Modell, das aus Faktensplittern komponiert, produziert genau das, was man ihm gefüttert hat: Splitter.

Also habe ich die Wissensbasis umgeschrieben, Geschichte für Geschichte. Jede bekam dasselbe Skelett: Situation, Spannung, Ergebnis, und ein Detail, das so spezifisch ist, dass der Namens-Test in die richtige Richtung ausschlägt. Die Eval-Ergebnisse sagten mir, welche Geschichte zuerst dran war und ob jede Überarbeitung tatsächlich etwas bewegt hat.

Und dann der Teil, den ich nicht kommen sah: Die Evals haben mich erwischt. Beim Labeln habe ich eine der Quellgeschichten neu gelesen und gemerkt, dass ich sie so aufgeschrieben hatte, wie ich sie mir gewünscht hätte. Glatter als die Realität, ein Konflikt etwas zu sauber aufgelöst. Die KI hatte meine eigene Schönfärberei treu an mich zurückgespiegelt. Ich habe die Quelle korrigiert. Wer seine KI vermisst, vermisst gelegentlich sich selbst.

Die letzten zwei Fehler hatten nichts mit Wissen zu tun

Nach der Überarbeitung bestanden die meisten Fragen stabil. Zwei flackerten weiter. Die frustrierende Sorte Flackern: bestanden, durchgefallen, bestanden, ohne dass sich dazwischen etwas geändert hätte.

Die Begründungen des Richters zeigten, warum. Die Fakten waren alle da. Die Komposition war falsch. Bei bestimmten breiten Fragetypen fiel das Modell ins Aufzählen zurück, obwohl es Geschichten zu erzählen hatte. Der Fix lag gar nicht in der Wissensbasis. Es war eine Lücke im Prompt: Meine Regel "antworte als Geschichte, nicht als Lebenslauf" listete Auslöse-Formulierungen auf, und diese zwei Fragetypen passten auf keine davon. Die Regel existierte. Sie feuerte nur nie.

Diese Unterscheidung trägt weit über meine kleine Website hinaus. Was das System weiß und wie das System komponiert sind zwei verschiedene Ebenen, und sie versagen unterschiedlich. Die Begründungen der Evals sagen dir, welche Ebene dran ist. Ohne sie schreibt man Inhalte um, wenn man Prompts reparieren müsste, und umgekehrt, und alles dauert viermal so lang.

Die Zahlen

Gleiche Transparenz wie beim letzten Mal:

Golden Set: 8 von Hand gelabelte Einträge. Gestartet mit 5. Klein, aber mit jedem einzelnen habe ich persönlich gerungen.
Fehlermodi: 4, jeder mit explizitem Geltungsbereich und Ja-Nein-Checks.
Richter-Übereinstimmung: 4/5 in der ersten Version. Danach habe ich das Raster korrigiert, nicht den Richter.
Vorher: 5 von 8 Fragen bestanden, die schwächste fiel in jedem einzelnen Lauf durch.
Nachher: 8 von 8, drei Läufe in Folge, 24 von 24 Urteilen.
Kosten pro vollem Eval-Lauf: Centbeträge. Teuer war das Hand-Labeln, ein paar Abende. Der Richter läuft für weniger als einen Kaffee.

Warum der Aufwand, für eine private Website

Wegen des Prinzips, nicht wegen der Website.

Ich glaube, dass KI autonom arbeiten soll, aber nie eine Blackbox sein darf. Es ist eine von drei Überzeugungen auf dieser Seite. Ein Chat, der ungeprüft in meinem Namen antwortet, ist eine Blackbox mit meinem Gesicht. Ich bin für jeden Satz verantwortlich, den er produziert, ob ich ihn gelesen habe oder nicht. Ihn zu testen ist kein Perfektionismus. Es ist der Preis dafür, ihn für mich sprechen zu lassen.

Und ehrlich: Die Messlatte da draußen liegt auf dem Boden. Die meisten Chatbots gehen live, nachdem jemand in einer Demo drei Fragen gestellt und genickt hat. Die Methodik, die meinen Website-Chat repariert hat, ist dieselbe, die ich bei Produktivsystemen in der Arbeit übe, und sie ist nicht schwer. Echte Antworten lesen. Von Hand labeln. Versagen präzise definieren, inklusive der Fälle, in denen die Regel nicht gilt. Den Richter sich das Vertrauen verdienen lassen, bevor man ihm vertraut. Die Ebene reparieren, auf die die Belege zeigen.

Das Ziel war nie ein perfekter Chatbot. Sondern genau zu wissen, wie mein System versagt, bevor ein Fremder es für mich herausfindet. Das ist am Ende der Unterschied zwischen autonom und außer Kontrolle.