
Die Frage, die niemand in meinen Workshops stellt
In jedem KI-Workshop erkläre ich, wie ein Sprachmodell das nächste Wort auswählt. Diese kleine Erklärung ist wichtig — nicht, um alle zu Datenwissenschaftlern zu machen, sondern weil sich daraus ein besseres Gespür fürs Prompting ergibt. Man versteht, warum ein Modell mal treffsicher und mal daneben liegt, warum Formulierung so viel Unterschied macht, warum ein und derselbe Prompt nie zweimal identisch beantwortet wird.
Was mir aber auffällt: Die naheliegendste Folgefrage stellt mir kaum jemand. Wir verwenden LLMs tagtäglich — für E-Mails, Recherche, Konzepte, Angebote, erste Strategie-Skizzen. Aber die Frage, ob und wie verlässlich die Ergebnisse eigentlich sind und was unter der Oberfläche der schönen Antworten passiert, taucht selten auf. Auch in meiner eigenen LinkedIn-Bubble, die gefühlt aus lauter KI-Expertinnen und -Experten besteht, nicht.
Dieser Beitrag ist der Versuch, genau dort anzusetzen. Er fasst zusammen, was wir über die Varianz von LLM-Antworten wissen, warum das bekannte Varianzproblem nicht der eigentliche Haken ist — und was eine aktuelle Studie aus der Harvard Business Review für strategische Entscheidungen und für den heiß diskutierten Einsatz autonomer Agenten bedeutet.
Der kleine Test: 30 Tabs, 30 Antworten
Nachdem mich zuletzt wieder eine schöne Infografik zur Funktionsweise von LLMs auf LinkedIn getriggert hat, habe ich einen kurzen Selbsttest gemacht. Zehn ChatGPT-Tabs, zehn Claude-Tabs, zehn Gemini-Tabs. Gleicher Prompt, gleicher Kontext, keine besonderen Tricks. Ergebnis: 30 unterschiedliche Antworten. Manche sehr ähnlich, manche überraschend weit auseinander — im Ton, in den Argumenten, in der Priorisierung.
Für jeden, der schon einmal unter die Haube eines Sprachmodells geschaut hat, ist das keine Überraschung. Ein LLM „weiß" nichts. Es berechnet, welches Wort mit welcher Wahrscheinlichkeit als nächstes passt, zieht daraus eine Stichprobe und schreibt Wort für Wort weiter. Bei jedem einzelnen dieser Schritte gibt es mehrere plausible Fortsetzungen. Schon kleine Wahrscheinlichkeitsunterschiede führen nach ein paar hundert Wörtern zu deutlich verschiedenen Texten — wie bei einem Schachspiel, bei dem eine minimal andere Eröffnung zwölf Züge später ein ganz anderes Brett ergibt.
Für den klassischen Chat ist das kein Problem. Wir lesen mit, bewerten, formulieren nach, streichen. Das Modell liefert eine gut gemachte Rohfassung, wir entscheiden. Genau dieses „wir denken ja eh mit" ist aber auch der Trick, mit dem LLMs so verlässlich wirken, obwohl sie das gar nicht sind.
„Aber das kann man doch steuern" — ja, und nein
An dieser Stelle kommt in jeder ernsthafteren Diskussion ein Einwand: Man kann die Varianz technisch reduzieren. Und das stimmt, in Grenzen.
- Temperature steuert, wie stark das Modell vom wahrscheinlichsten Wort abweicht. Ein niedriger Temperature-Wert (oder
top_pnahe null) zwingt das Modell näher an den wahrscheinlichsten Pfad. - Seeds können bei manchen Anbietern denselben Zufallszustand reproduzieren, wenn auch nicht 100-prozentig garantiert.
- Strukturierte Outputs (JSON-Schema, Grammatik, Tool-Aufrufe) verhindern, dass das Modell in ungewollte Formate ausschert.
- System-Prompts, Guardrails und Evals engen den Ergebnisraum zusätzlich ein.
All das ist seriöses Engineering und in Produktivsystemen Standard. Wer heute einen RAG-basierten Assistenten, einen Chatbot oder einen Workflow baut, nutzt diese Hebel. Richtig eingesetzt, reduzieren sie die Streuung der Antworten erheblich. Das ist auch der Grund, warum gut gebaute KI-Assistenten auf einer kuratierten Wissensbasis zuverlässig wirken — und es in diesem engen Rahmen auch sind.
Aber: Diese Werkzeuge adressieren die Varianz. Sie adressieren nicht, in welche Richtung das Modell kippt, wenn es eine inhaltliche Entscheidung treffen muss. Und genau dort liegt der blinde Fleck.
Wo die Varianz teuer wird: autonome Agenten
Solange ein Mensch mitliest, ist die Streuung unkritisch. Die spannende Frage der letzten Monate lautet aber: Was passiert, wenn man das Mitlesen weglässt?
Autonome KI-Agenten — jene Systeme, denen die Propheten der Branche zutrauen, bald ganze Abteilungen zu ersetzen — arbeiten per Definition ohne ständige menschliche Kontrolle. Sie bekommen ein Ziel, zerlegen es in Schritte, rufen Tools auf, treffen Zwischenentscheidungen, schreiben selbst weiter. Mir ist bewusst, dass man dafür Guardrails, Genehmigungsschritte und Evals einzieht. Trotzdem gilt: Derselbe Agent, 30 Mal mit derselben Aufgabe losgeschickt, trifft 30 Mal etwas andere Entscheidungen.
Für viele Anwendungsfälle ist das beherrschbar. Kundensupport, E-Mail-Beantwortung, Angebotsentwurf, Dokumentenextraktion — hier sind die Entscheidungsräume eng, die Konsequenzen begrenzt, die Qualitätskontrolle automatisierbar. Wer in einem von zehn Fällen auf eine Support-Mail leicht anders antwortet, schadet niemandem.
Interessant wird es, wenn die Aufgabe nicht „beantworte diese Mail" heißt, sondern „bewerte diese Marktchance", „priorisiere diese Roadmap", „empfiehl eine Make-or-Buy-Entscheidung". Genau solchen Fragen hat sich ein Forscherteam in einem gerade erschienenen HBR-Artikel gewidmet — und die Ergebnisse sind einen zweiten Blick wert.
Die HBR-Studie: Wenn LLMs Strategie empfehlen
Im März 2026 hat die Harvard Business Review unter dem Titel „Researchers Asked LLMs for Strategic Advice. They Got 'Trendslop' in Return" (Romasanta, Thomas, Levina) eine Studie veröffentlicht, die in der Diskussion um KI-Agenten gerade viel zu selten zitiert wird.
Die Autor:innen haben sechs der führenden Modelle — GPT-5, Claude, Gemini, Grok, DeepSeek und Mistral — systematisch mit strategischen Entscheidungen konfrontiert. Grundlage waren sieben klassische Trade-offs aus der Strategielehre. Fragen wie: Setzt man auf Differenzierung oder Kostenführerschaft? Ersetzt man menschliche Arbeit durch KI oder erweitert man sie? Optimiert man kurzfristig oder langfristig? Geht man den Weg der Kooperation oder des Wettbewerbs?
Jede dieser Entscheidungssituationen wurde in über 15.000 Simulationen durchgespielt — mit verschiedenen Branchenkontexten, Unternehmensgrößen und Detailgraden. Das Ergebnis ist für alle, die LLMs als „neutrale Sparringspartner" verstehen wollen, unbequem.
Die Kernaussage: Systematische Verzerrung in dieselbe Richtung
Die wichtigste Erkenntnis der Studie ist nicht, dass die Antworten streuen. Das wäre die bekannte Varianzgeschichte — ärgerlich, aber technisch beherrschbar. Die eigentliche Finding ist schärfer:
Unter der Varianz liegt eine systematische Verzerrung, und alle untersuchten Modelle kippen in dieselbe Richtung.
Konkret:
- Differenzierung vor Kostenführerschaft. Egal ob das simulierte Unternehmen ein Industriezulieferer mit dünnen Margen oder ein Premium-Markenhersteller ist — empfohlen wird in der Tendenz der Weg über besondere Qualität, Marke, Experience.
- Augmentation vor Automatisierung. „KI soll Menschen unterstützen, nicht ersetzen" — ein Satz, der gerade in sozialen Netzwerken gut ankommt. Die Modelle produzieren ihn verlässlich.
- Langfristige statt kurzfristige Optimierung. Selbst wenn der Kontext Liquiditätsengpass und Quartalsdruck schildert, tendieren die Empfehlungen in Richtung „nachhaltig aufbauen".
- Kooperation vor Wettbewerb. Ökosystem-Denken, Partnerschaften, offene Standards — immer beliebt.
Das sind keine falschen Empfehlungen. In vielen Situationen sind sie genau richtig. Aber sie sind eben nicht die Antwort auf die Frage „Was braucht dieses Unternehmen, in dieser Branche, mit dieser Kostenstruktur, gerade jetzt?" Sie sind die Antwort auf die Frage „Was ist gerade die buzzword-kompatibelste, in Wirtschaftsmagazinen am häufigsten geäußerte Position?". Deshalb auch der Begriff „Trendslop" im Titel der Studie: eine Art mittlerer Zeitgeist, aus den Trainingsdaten der letzten Jahre kondensiert.
Die Zahl, die nachdenklich macht: 11 %
Ein möglicher Einwand an dieser Stelle lautet: „Aber mit genug Kontext bekomme ich doch differenziertere Empfehlungen." Genau das haben die Autor:innen getestet — und die Antwort ist ernüchternd.
Selbst wenn die Modelle mit ausführlichem, branchenspezifischem Kontext versorgt wurden (Unternehmensprofil, Marktposition, Kostenstruktur, Wettbewerbssituation), verschob sich die Empfehlung gegenüber dem kontextfreien Fall im Schnitt um gerade einmal 11 %. Anders formuliert: 89 % der Empfehlung hängen nicht am Kontext, sondern an einer tieferen, modellimmanenten Tendenz.
Das ist der Punkt, der über das reine Varianzargument hinausgeht. Ein LLM, das zwar unterschiedliche Texte schreibt, aber in der Sache immer dieselbe Richtung empfiehlt, ist nicht 30 unabhängige Berater:innen. Es ist eine einzige Stimme mit 30 Formulierungen. Und wenn ich diese eine Stimme auf eine strategische Frage loslasse — oder, schlimmer, einen autonomen Agenten davon Entscheidungen ableiten lasse — habe ich weder Diversität noch echte Abwägung. Ich habe nur das Gefühl davon.
Warum das Temperature-Argument hier nicht reicht
Ein schneller Gedanke, den man an dieser Stelle gerne hat: „Dann drehe ich eben die Temperature hoch, dann streuen die Antworten wieder mehr." Leider ist das nicht die richtige Therapie, denn:
- Höhere Temperature erhöht die Streuung der Formulierungen, nicht die Breite der zugrunde liegenden Präferenzen. Man bekommt zehn bunte Varianten derselben Grundempfehlung, keine echte Alternative.
- Je höher die Temperature, desto wahrscheinlicher werden auch schlicht falsche oder unsinnige Antworten — was bei strategischen Fragen die schlechteste aller Welten ist.
- Was man bräuchte — Modelle mit echt unterschiedlichen Grundannahmen — gibt es nicht. Alle großen Anbieter trainieren auf stark überlappenden Datenmengen mit ähnlichen RLHF-Verfahren und vergleichbaren Sicherheitsleitlinien. Die Trendslop-Tendenz ist in den Trainingsdaten und in der Art, wie Modelle auf „hilfreiche, ausgewogene" Antworten hin feingetunt werden, strukturell angelegt.
Das ist keine Modellschwäche im Sinne von „noch nicht gut genug". Es ist eine inhärente Eigenschaft der aktuellen LLM-Architektur in Verbindung mit ihrer Trainingspraxis.
Was bedeutet das konkret?
Wer LLMs nur für Texte, Recherche und Zusammenfassungen nutzt, kann weitgehend entspannt bleiben — die Kontrolle findet am Bildschirm statt. Für drei Nutzungsmuster sollte man die Studie allerdings im Hinterkopf behalten:
1. Strategische Entscheidungen nicht an ein LLM delegieren
Die Versuchung, komplexe Fragen zu Marktstrategie, Pricing, Investitionen oder Personal in ein LLM zu kippen und „ein Ergebnis zu bekommen", ist groß — gerade, weil die Antworten kompetent klingen. Die Empfehlung aus der Studie: LLMs einsetzen, um den Raum an Optionen zu erweitern, nicht, um zu entscheiden. Also nicht „Was sollen wir tun?", sondern „Welche drei Gegenpositionen zu unserer aktuellen Hypothese sollten wir ernst nehmen?" oder „Welche Annahmen müssten brechen, damit unser Plan scheitert?". Das ist eine andere Prompt-Praxis — und eine andere Rolle für das Modell.
2. Autonome Agenten bewusst scopen
Agenten funktionieren dort gut, wo der Entscheidungsraum klar eingegrenzt ist und eine falsche Einzelentscheidung geringe, reversible Konsequenzen hat: Support-Tickets triagieren, E-Mails kategorisieren, Angebote vorbereiten, strukturierte Daten aus Dokumenten ziehen. Genau das sind auch die Fälle, in denen ich mit Kund:innen den größten Nutzen sehe — und deshalb Custom-Agenten bauen wir genau für solche engen, überprüfbaren Aufgaben, nicht für strategische Letztentscheidungen. Ein Agent, der statt dessen eigenständig „strategisch priorisieren" soll, übernimmt in Wahrheit die Trendslop-Schlagseite und verkauft sie als Ergebnis.
3. Intern transparent machen, was das Modell ist und was nicht
Mitarbeiter:innen, die mit ChatGPT oder einem internen Assistenten arbeiten, bekommen plausibel klingende Antworten zu allem — einschließlich Fragen, für die das Modell gar nicht zuständig sein sollte. Eine der unterschätzten Aufgaben bei jeder KI-Einführung ist daher, intern klar zu kommunizieren: Wo ist das Modell Produktivitätshebel (Schreiben, Recherche, Strukturierung), wo bleibt die Urteilskraft beim Menschen (Strategie, Personal, Risiko, Geld). Das ist keine technische Frage, sondern eine der Governance. In unseren KI-Sprints ist sie fester Bestandteil.
Die eigentliche Aufgabe bleibt menschlich
Die Studie entlarvt nicht „die KI". Sie entlarvt eine bestimmte Rollenvorstellung davon, was ein LLM kann. Als Textwerkzeug, als Recherchehelfer, als Option-Generator sind die heutigen Modelle beeindruckend nützlich — und sie werden es weiter werden. Als autonomer Strategieberater taugen sie, Stand heute, nicht. Nicht, weil sie zu unzuverlässig streuen, sondern weil sie unter der Streuung alle dieselbe Schlagseite haben.
Das ist für Entscheider:innen eine gute und eine schlechte Nachricht. Die gute: Die strategische Urteilskraft bleibt ein echter, nicht automatisierbarer Beitrag. Die schlechte: Sie lässt sich nicht outsourcen — auch nicht an das beste Modell.
Wer sich gerade fragt, wo in seinem Unternehmen LLMs und Agenten echten Nutzen bringen und wo man besser die Finger von voller Autonomie lässt, kann genau diese Sortierung mit mir durchgehen. In einem KI-Sprint entsteht in wenigen Tagen eine klare Übersicht: Was eignet sich für Automatisierung, was für Augmentation, was bleibt Chefsache. Und was man lieber nicht versucht.
Quelle: Romasanta, Thomas, Levina: Researchers Asked LLMs for Strategic Advice. They Got „Trendslop" in Return. Harvard Business Review, März 2026. hbr.org/2026/03/researchers-asked-llms-for-strategic-advice-they-got-trendslop-in-return
