Einleitung
Um die Funktionsweise von Systemen mit großen Sprachmodellen (LLM) zu begreifen, ist es hilfreich, den Fokus über die bloßen Eingabeaufforderungen hinaus zu erweitern. Die meisten praktischen Anwendungen von LLMs bestehen nicht nur aus einer Eingabe und einer Antwort. Vielmehr handelt es sich um Systeme, die den Kontext verwalten, mit Werkzeugen interagieren, Daten abrufen und mehrere Schritte im Hintergrund durchführen. Hier findet der Großteil der eigentlichen Arbeit statt. Anstatt sich ausschließlich auf Tricks der Eingabeaufforderung zu konzentrieren, ist es nützlicher, die grundlegenden Bausteine hinter diesen Systemen zu verstehen. Sobald man diese Konzepte erfasst hat, wird deutlich, warum einige LLM-Anwendungen zuverlässig erscheinen und andere nicht. Im Folgenden werden zehn wichtige Konzepte der LLM-Entwicklung vorgestellt, die veranschaulichen, wie moderne Systeme tatsächlich aufgebaut sind.
1. Verständnis der Kontextgestaltung
Die Kontextgestaltung beinhaltet die Entscheidung, welche Informationen das Modell zu einem bestimmten Zeitpunkt sehen sollte. Dies geht über das Verfassen einer guten Eingabeaufforderung hinaus; es umfasst auch die Verwaltung von Systemanweisungen, Gesprächsverläufen, abgerufenen Dokumenten, Werkzeugdefinitionen, Gedächtnis, Zwischenschritten und Ausführungsspuren. Im Wesentlichen handelt es sich um den Prozess, zu bestimmen, welche Informationen in welcher Reihenfolge und in welchem Format angezeigt werden sollen. Oft ist dies wichtiger als die Formulierung der Eingabeaufforderung allein, was viele dazu veranlasst, zu behaupten, dass die Kontextgestaltung die neue Kunst der Eingabeaufforderung ist. Viele Misserfolge von LLMs treten nicht auf, weil die Eingabeaufforderung schlecht ist, sondern weil der Kontext fehlt, veraltet, redundant, schlecht geordnet oder mit Rauschen überladen ist. Für einen tiefergehenden Einblick habe ich einen separaten Artikel zu diesem Thema verfasst: Sanfte Einführung in die Kontextgestaltung bei LLMs.
2. Implementierung von Werkzeugaufrufen
Der Werkzeugaufruf ermöglicht es einem Modell, eine externe Funktion aufzurufen, anstatt zu versuchen, eine Antwort ausschließlich aus seinen Trainingsdaten zu generieren. In der Praxis ist dies der Weg, wie ein LLM im Internet sucht, eine Datenbank abfragt, Code ausführt, eine API-Anfrage sendet oder Informationen aus einer Wissensdatenbank abruft. In diesem Paradigma generiert das Modell nicht nur Text – es wählt zwischen Denken, Sprechen und Handeln. Aus diesem Grund ist der Werkzeugaufruf das Herzstück der meisten produktionsreifen LLM-Anwendungen. Viele Praktiker bezeichnen dies als die Funktion, die ein LLM in einen „Agenten“ verwandelt, da es die Fähigkeit erlangt, Aktionen durchzuführen.
3. Einführung des Model Context Protocol
Während der Werkzeugaufruf es einem Modell ermöglicht, eine spezifische Funktion zu nutzen, ist das Model Context Protocol (MCP) ein Standard, der es ermöglicht, Werkzeuge, Daten und Arbeitsabläufe über verschiedene KI-Systeme hinweg zu teilen und wiederzuverwenden, ähnlich einem universellen Connector. Vor der Einführung von MCP hätte die Integration von N Modellen mit M Werkzeugen N×M individuelle Integrationen erfordert, jede mit ihrem eigenen Fehlerpotenzial. MCP löst dieses Problem, indem es eine konsistente Möglichkeit bietet, Werkzeuge und Daten bereitzustellen, sodass jeder KI-Client sie nutzen kann. Es wird schnell zu einem branchenweiten Standard und ist ein entscheidendes Element für den Aufbau zuverlässiger, groß angelegter Systeme.
4. Ermöglichung der Kommunikation zwischen Agenten
Im Gegensatz zu MCP, das sich darauf konzentriert, Werkzeuge und Daten auf wiederverwendbare Weise bereitzustellen, fokussiert sich die Kommunikation zwischen Agenten (A2A) darauf, wie mehrere Agenten Aktionen koordinieren. Dies ist ein klarer Hinweis darauf, dass die LLM-Entwicklung über Anwendungen mit einem einzelnen Agenten hinausgeht. Google führte A2A als Protokoll ein, damit Agenten sicher kommunizieren, Informationen austauschen und Aktionen über Unternehmenssysteme hinweg koordinieren können. Die Grundidee ist, dass viele komplexe Arbeitsabläufe nicht mehr in einen einzigen Assistenten passen. Stattdessen müssen ein Forschungsagent, ein Planungsagent und ein Ausführungsagent möglicherweise zusammenarbeiten. A2A bietet diesen Interaktionen eine standardisierte Struktur, sodass Teams nicht ad-hoc Messaging-Systeme erfinden müssen. Für weitere Details siehe: Aufbau von KI-Agenten? A2A vs. MCP einfach erklärt.
5. Nutzung von semantischem Caching
Wenn Teile Ihrer Eingabeaufforderung – wie Systemanweisungen, Werkzeugdefinitionen oder stabile Dokumente – unverändert bleiben, können Sie diese wiederverwenden, anstatt sie erneut an das Modell zu senden. Dies wird als Eingabeaufforderungs-Caching bezeichnet, was sowohl die Latenz als auch die Kosten reduziert. Die Strategie besteht darin, stabile Inhalte zuerst und dynamische Inhalte später zu platzieren und Eingabeaufforderungen als modulare, wiederverwendbare Blöcke zu behandeln. Semantisches Caching geht einen Schritt weiter, indem es dem System ermöglicht, frühere Antworten für semantisch ähnliche Fragen wiederzuverwenden. Wenn ein Benutzer beispielsweise eine Frage leicht anders formuliert, muss nicht unbedingt eine neue Antwort generiert werden. Die Hauptschwierigkeit besteht darin, ein Gleichgewicht zu finden: Wenn die Ähnlichkeitsprüfung zu locker ist, könnte eine falsche Antwort zurückgegeben werden; ist sie zu streng, gehen die Effizienzgewinne verloren. Ich habe ein Tutorial zu diesem Thema verfasst, das Sie hier finden können: Aufbau eines Inferenz-Caches zur Kostensenkung in stark frequentierten LLM-Anwendungen.
6. Anwendung der kontextuellen Kompression
Manchmal findet ein Abrufsystem relevante Dokumente, gibt jedoch viel zu viel Text zurück. Während das Dokument relevant sein mag, benötigt das Modell oft nur den spezifischen Abschnitt, der die Benutzeranfrage beantwortet. Wenn Sie einen 20-seitigen Bericht haben, könnte die Antwort nur in zwei Absätzen verborgen sein. Ohne kontextuelle Kompression muss das Modell den gesamten Bericht verarbeiten, was Rauschen und Kosten erhöht. Mit Kompression extrahiert das System nur die nützlichen Teile, was die Antwort schneller und genauer macht. Dies ist ein wichtiges Übersichts-Papier für diejenigen, die sich eingehend mit diesem Thema befassen möchten: Kontextuelle Kompression in der retrieval-unterstützten Generierung für große Sprachmodelle: Eine Übersicht.
7. Anwendung von Reranking
Reranking ist eine sekundäre Überprüfung, die nach dem ersten Abruf erfolgt. Zunächst zieht ein Abrufsystem eine Gruppe von Kandidatendokumenten. Dann bewertet ein Reranker diese Ergebnisse und platziert die relevantesten an die Spitze des Kontextfensters. Dieses Konzept ist entscheidend, da viele retrieval-unterstützte Generierungssysteme nicht daran scheitern, dass nichts gefunden wurde, sondern weil die besten Beweise an einer niedrigeren Stelle vergraben waren, während weniger relevante Teile die Spitze der Eingabeaufforderung einnahmen. Reranking behebt dieses Reihenfolgeproblem, was oft die Antwortqualität erheblich verbessert. Sie können ein Reranking-Modell aus einem Benchmark wie dem Massive Text Embedding Benchmark (MTEB) auswählen, das Modelle in verschiedenen Abruf- und Reranking-Aufgaben bewertet.
8. Implementierung von hybrider Suche
Hybride Suche ist ein Ansatz, der die Suche zuverlässiger macht, indem verschiedene Methoden kombiniert werden. Anstatt sich ausschließlich auf semantische Suche zu verlassen, die Bedeutung durch Einbettungen versteht, kombinieren Sie sie mit Schlüsselwortsuchmethoden wie Best Matching 25 (BM25). BM25 ist hervorragend darin, genaue Wörter, Namen oder seltene Identifikatoren zu finden, die die semantische Suche möglicherweise übersehen könnte. Durch die Nutzung beider Methoden erfassen Sie die Stärken beider Systeme. Ähnliche Probleme habe ich in meiner Forschung untersucht: Modellierung von Abfrageattributen: Verbesserung der Suchrelevanz mit semantischer Suche und Metadatenfilterung. Das Ziel ist es, die Suche intelligenter zu gestalten, indem verschiedene Signale kombiniert werden, anstatt sich auf eine einzige vektorbasierte Methode zu verlassen.
9. Gestaltung von Gedächtnisarchitekturen für Agenten
Viel Verwirrung um das Thema „Gedächtnis“ entsteht durch die Behandlung als monolithisches Konzept. In modernen Agentensystemen ist es besser, den kurzfristigen Arbeitszustand vom langfristigen Gedächtnis zu trennen. Kurzzeitgedächtnis repräsentiert das, was der Agent derzeit verwendet, um eine spezifische Aufgabe zu erfüllen. Langzeitgedächtnis funktioniert wie eine Datenbank gespeicherter Informationen, organisiert nach Schlüsseln oder Namensräumen, und wird nur dann in das Kontextfenster gebracht, wenn es relevant ist. Gedächtnis in der KI ist im Wesentlichen ein Problem des Abrufs und des Zustandsmanagements. Sie müssen entscheiden, was gespeichert werden soll, wie es organisiert wird und wann es abgerufen wird, um sicherzustellen, dass der Agent effizient bleibt, ohne von irrelevanten Daten überwältigt zu werden.
10. Verwaltung von Inferenz-Gateways und intelligentem Routing
Das Inferenz-Routing behandelt jede Modellanfrage als ein Verkehrsmanagementproblem. Anstatt jede Anfrage denselben Weg zu schicken, entscheidet das System, wohin sie basierend auf den Benutzerbedürfnissen, der Komplexität der Aufgabe und den Kostenbeschränkungen gehen sollte. Einfache Anfragen könnten an ein kleineres, schnelleres Modell gesendet werden, während komplexe Denkaufgaben an ein leistungsfähigeres Modell weitergeleitet werden. Dies ist entscheidend für LLM-Anwendungen im großen Maßstab, bei denen Geschwindigkeit und Effizienz ebenso wichtig sind wie Qualität. Effektives Routing sorgt für bessere Antwortzeiten für die Benutzer und eine optimalere Ressourcennutzung für den Anbieter.
Fazit
Die wichtigste Erkenntnis ist, dass moderne LLM-Anwendungen am besten funktionieren, wenn man in Systemen denkt, anstatt nur in Eingabeaufforderungen.
- Priorisieren Sie zunächst die Kontextgestaltung.
- Fügen Sie Werkzeuge nur hinzu, wenn das Modell eine Aktion ausführen muss.
- Verwenden Sie MCP und A2A, um sicherzustellen, dass Ihr System skalierbar ist und sauber verbunden wird.
- Nutzen Sie Caching, Kompression und Reranking, um den Abrufprozess zu optimieren.
- Betrachten Sie Gedächtnis und Routing als zentrale Designprobleme.
Wenn Sie LLM-Anwendungen durch diese Linse betrachten, wird das Feld viel einfacher zu navigieren. Echte Fortschritte liegen nicht nur in der Entwicklung größerer Modelle, sondern in den ausgeklügelten Systemen, die um sie herum aufgebaut sind. Durch das Beherrschen dieser Bausteine denken Sie bereits wie ein spezialisierter LLM-Ingenieur.
Kanwal Mehreen ist Maschinenbauingenieurin und technische Autorin mit einer tiefen Leidenschaft für Datenwissenschaft und der Schnittstelle zwischen KI und Medizin. Sie ist Mitautorin des E-Books „Produktivität maximieren mit ChatGPT“. Als Google Generation Scholar 2022 für APAC setzt sie sich für Vielfalt und akademische Exzellenz ein. Außerdem wurde sie als Teradata Diversity in Tech Scholar, Mitacs Globalink Research Scholar und Harvard WeCode Scholar ausgezeichnet. Kanwal ist eine leidenschaftliche Verfechterin des Wandels und hat FEMCodes gegründet, um Frauen in MINT-Berufen zu stärken.
„`
Bildquelle: ai-generated-gemini