Tipps & Tricks

Entwicklung von Agenten-basierten KI-Systemen mit Microsofts Agenten-Framework

12 min Lesezeit
Entwicklung von Agenten-basierten KI-Systemen mit Microsofts Agenten-Framework

Das Agent Framework Dev Project ist eine gemeinschaftliche Initiative, die praxisorientierte Schulungsmaterialien für Entwickler bereitstellt, um KI-Agenten mithilfe moderner Frameworks und Werkzeuge zu erstellen. Der Agent Framework Dev Day wurde von der Boston Azure AI Group veranstaltet und von Microsoft gesponsert. Das Microsoft Agent Framework, das im Oktober 2025 veröffentlicht wurde, erweitert sowohl den Semantic Kernel als auch AutoGen zu einem einheitlichen Ansatz für den Aufbau produktionsfähiger agentenbasierter Systeme. In Kombination mit der Microsoft Foundry-Plattform bietet es Beobachtbarkeit, Sicherheitskonfiguration und betriebsbereite Kontrollen auf der Grundlage des Kernframeworks. Die Arbeit mit den Python-Inhalten des Frameworks deckt vier miteinander verbundene technische Bereiche ab, die direkt aufeinander aufbauen und in Mustern verankert sind, die auf realen, implementierten Systemen basieren.

Sicherheit als empirisches Messproblem betrachten

Die meisten Tutorials zu agentenbasierten Systemen behandeln Sicherheit nur am Rande. Ein besserer Ansatz besteht darin, Sicherheit als erstes zu betrachten und zu messen, bevor eine einzige Zeile agentenbasierter Logik geschrieben wird. Dies schafft eine realistische Grundlage für die weitere Arbeit, indem es zeigt, was ungeschützte Modelle tatsächlich tun.

Das Werkzeug dafür ist ein Vergleichsläufer mit zwei Modellen. Der gleiche Prompt wird gleichzeitig an zwei implementierte Instanzen von gpt-4.1-mini gesendet: eine mit aktivierten Sicherheitsvorkehrungen der Microsoft Foundry und eine mit reduzierten Vorkehrungen. Die Ergebnisse erscheinen nebeneinander im Terminal, einschließlich Antworttext und Latenz für jedes Modell, was den Verhaltensunterschied zwischen den beiden Implementierungen unbestreitbar macht.

Der Standardprompt ist absichtlich provokant: eine Anfrage nach Anweisungen zur Herstellung eines selbstgebauten Sprengstoffs. Das geschützte Modell verweigert die Antwort. Das ungeschützte Modell könnte dies tun. Beide Antworten erscheinen in derselben Schnittstelle, auf derselben Hardware, zur gleichen Zeit. Der Kontrast ist sofort und konkret, nicht hypothetisch.

Von dort aus öffnet sich der Vergleich zu drei Eingabekategorien, die es wert sind, untersucht zu werden:

  • Profanitätsfilter, die über kuratierte Blocklisten in Microsoft Foundry gesteuert werden
  • Regierungsidentifikatoren wie Sozialversicherungsnummern (SSNs)
  • Weitere personenbezogene Daten (PII)

Jede Kategorie entspricht einer realen Klasse von Compliance-Anforderungen für Unternehmen und zeigt beobachtbare Unterschiede zwischen den beiden Implementierungen auf, sodass Entwickler ein direktes Gefühl dafür bekommen, wo Sicherheitsvorkehrungen greifen und wo Lücken bestehen.

Die Latenz verdient hier ebenfalls Beachtung, nicht nur der Antwortinhalt. Sicherheitsvorkehrungen führen zu messbarem Overhead, und dieser Trade-off ist es wert, quantifiziert zu werden, anstatt ihn zu ignorieren. Ein drittes Regime – Modelle, die mit Standardeinstellungen zwischen den beiden Extremen laufen – verstärkt die Erkenntnis, dass Sicherheit ein konfigurierbares Spektrum ist und kein binärer Schalter, den Ingenieure aktiv basierend auf dem Anwendungskontext einstellen.

Der zugrunde liegende Code verwendet den AzureAIClient des Frameworks, um kurzlebige Agenten für jedes Modell zu erstellen, führt beide über asyncio.gather aus und zeigt Token-Zahlen zusammen mit Zeitdaten an. Die Architektur ist absichtlich minimal. Der Fokus liegt auf dem Vergleich, nicht auf der umgebenden Infrastruktur.

Die umfassendere Lektion: Ein Agent, der eine Aufgabe abschließt, ist nicht dasselbe wie ein Agent, der eine Aufgabe verantwortungsbewusst unter realen Eingaben abschließt. Das frühe Verständnis dieses Unterschieds prägt jede nachfolgende architektonische Entscheidung.

Agenten mit der Model Context Protocol verbinden

Das Model Context Protocol (MCP) ist ein universeller Adapter, der es KI-Agenten ermöglicht, über ein standardisiertes Protokoll mit Datenquellen und Werkzeugen zu kommunizieren, ohne dass Änderungen am Agenten-Client erforderlich sind, wenn sich der zugrunde liegende Dienst ändert. Dies macht es zu einer praktischen Grundlage für den Aufbau von Agenten, die mit sich entwickelnden Unternehmenssystemen interagieren.

Die Architektur umfasst drei Komponenten. Eine Host-Anwendung (der KI-Agent) verbindet sich über einen MCP-Client mit einem oder mehreren MCP-Servern, von denen jeder Werkzeuge, Ressourcen und Prompts bereitstellt. Server können lokal oder remote sein, und der Client-Code ändert sich nicht, um entweder zu berücksichtigen, was die Agentenschicht sauber von Infrastrukturentscheidungen entkoppelt.

Zwei Transportmechanismen decken die Hauptbereitstellungsszenarien ab:

  • STDIO-Transport: Der STDIO-Transport führt den MCP-Server als Unterprozess aus, der über Standard-Eingabe und -Ausgabe kommuniziert. Dies eignet sich für lokale Werkzeuge und CLI-Integrationen, bei denen niedrige Latenz und enge Prozesskopplung wünschenswert sind.
  • HTTP/SSE-Transport: Der HTTP/SSE-Transport führt den Server als Webdienst aus, der über HTTP mit Server-Sent Events (SSE) kommuniziert. Dies eignet sich für Cloud-Dienste und gemeinsame Werkzeuge, auf die mehrere Agenten gleichzeitig in verteilten Umgebungen zugreifen müssen.

Eine konkrete Implementierung mit vier Komponenten im Bereich Support-Tickets macht diese Muster greifbar. Der mcp_local_server stellt vier Werkzeuge über STDIO bereit: GetConfig, UpdateConfig, GetTicket und UpdateTicket. Der mcp_remote_server ist eine FastAPI REST-API, die auf Port 5060 läuft und dieselben Ticketdaten wie eine ordnungsgemäße Diensteschicht verwaltet. Der mcp_bridge läuft auf Port 5070 und übersetzt zwischen HTTP/SSE und normalen HTTP-Anfragen an das REST-Backend. Der mcp_agent_client konsumiert all diese gleichzeitig, entdeckt dynamisch Werkzeuge von jedem Server und konvertiert sie in das Funktionsaufrufsformat, das Azure OpenAI erwartet, alles innerhalb einer einzigen Agentensitzung.

Die architektonische Erkenntnis mit den bedeutendsten Auswirkungen auf Unternehmen: Das Einwickeln einer bestehenden REST-API mit einem MCP-Bridge erfordert keinerlei Modifikation des Backends. Jeder Dienst, der bereits HTTP-Endpunkte bereitstellt, wird für einen KI-Agenten zugänglich, ohne den eigenen Code dieses Dienstes zu berühren, was die Integrationskosten für Organisationen mit großen bestehenden API-Oberflächen erheblich senkt.

Der vollständige agentenbasierte Zyklus, der hier aufgebaut wird, umfasst die Werkzeugentdeckung zur Laufzeit, die dynamische Funktionskonvertierung, die Modellaufrufe, die Werkzeugbereitstellung und die Ergebnisspeicherung im Kontext, alles aus ersten Prinzipien unter Verwendung des MCP SDK und Azure OpenAI, was Entwicklern ein vollständiges Bild davon gibt, wie jede Schicht verbunden ist.

Workflow-Muster orchestrieren: Sequentiell, Parallel und Mensch-in-der-Schleife

Die Workflow-Orchestrierung ist der Punkt, an dem einzelne Agenten als koordinierte Systeme fungieren, die in der Lage sind, Probleme zu lösen, die zu komplex sind, um sie mit einem einzigen Modellaufruf sauber zu lösen.

Alle drei Muster arbeiten auf demselben SupportTicket-Datenmodell, das Felder wie Ticket-ID, Kundenname, Betreff, Beschreibung und Priorität enthält. Die Verwendung desselben Bereichs über alle drei Muster hinweg ist absichtlich: Das Ziel ist es, identische Daten durch grundlegend unterschiedliche Verarbeitungsarchitekturen zu verfolgen und zu beobachten, was sich hinsichtlich der Ausgabe, der Latenz und der verfügbaren Steueroberfläche für den Betreiber ändert.

Sequentieller Workflow

Ein hochpriorisiertes Ticket von einem Kunden, der sich nach einer Passwortzurücksetzung nicht einloggen kann, durchläuft einen AI-Kategorisierungsprozess, der das Problem in strukturiertem JSON klassifiziert und zusammenfasst, und geht dann in einen Antwortgenerierungsprozess über. Das Ergebnis ist eine vollständige, kundenfertige Antwort, die die Dringlichkeit anerkennt, konkrete nächste Schritte anbietet und die Ticketnummer enthält. Die gesamte Pipeline läuft ohne menschliches Eingreifen, und die Ausgaben jedes Schrittes sind sichtbar, bevor sie an den nächsten übergeben werden, wodurch die Datenveränderung in jeder Phase explizit und überprüfbar wird.

Paralleler Workflow

Ein Kunde, der sowohl eine doppelte Belastung als auch eine abstürzende Anwendung in derselben Nachricht meldet, zeigt die Grenzen einer sequentiellen Einzelagenten-Pipeline auf. Abrechnungs- und technische Anliegen erfordern unterschiedliche Fachkenntnisse, und die Weiterleitung beider über einen einzelnen Agenten führt zu einem schwächeren Ergebnis, als wenn jeder an einen Spezialisten weitergeleitet wird, der in einem engeren Bereich tiefere Überlegungen anstellen kann.

Das parallele Muster verteilt die Anfrage gleichzeitig an einen Abrechnungsexperten-Agenten und einen technischen Experten-Agenten. Der Abrechnungsagent behandelt die doppelte Belastung und empfiehlt einen Rückerstattungsweg. Der technische Agent konzentriert sich auf Schritte zur Cache-Leerung und Neuinstallation für die abstürzende Anwendung. Keiner der Agenten versucht, beide Bereiche zu behandeln. Das aggregierte Ergebnis gibt dem Kunden eine vollständige Antwort, die kein einzelner Spezialist allein hätte liefern können, und die Antwortzeit wird durch den langsameren der beiden Agenten begrenzt, nicht durch ihre Summe.

Mensch-in-der-Schleife-Workflow

Der Fall mit den höchsten Einsätzen beinhaltet einen Kunden, der eine vollständige Rückerstattung für ein einwöchig zuvor erworbenes Jahresabonnement anfordert. Die KI generiert eine Entwurfantwort, die korrekt die 14-tägige Geld-zurück-Garantie-Politik anruft und anbietet, die Stornierung sofort zu bearbeiten. Dann stoppt die Ausführung, und die Kontrolle wird explizit an einen menschlichen Prüfer übergeben, bevor etwas gesendet wird.

Der Vorgesetzte erhält den vollständigen Entwurf und drei explizite Optionen: genehmigen und wie geschrieben senden, vor dem Senden bearbeiten oder an das Management eskalieren. Bei Genehmigung zeichnet das System die Aktion auf, aktualisiert den Ticketstatus auf gelöst und protokolliert, dass die Antwort ohne Änderungen genehmigt wurde, wodurch eine vollständige Audit-Trail der Entscheidung entsteht.

Was dieses Muster konkret macht, ist etwas, das Workflow-Diagramme oft verschleiern: Die Mensch-in-der-Schleife-Pause ist kein Fehler oder ein Ausnahmepfad. Es ist ein geplanter, erstklassiger Halt im Workflow. Das System wartet darauf, ohne Abfragen oder Zeitüberschreitungen. Dieses Muster macht KI-unterstützte Prozesse prüfbar und verteidigbar in regulierten oder hochriskanten Umgebungen und sollte als gleichwertig zu den vollständig automatisierten Alternativen behandelt werden, anstatt als letzte Rückfalloption.

Die Erweiterung jedes Musters vertieft das Verständnis erheblich. Das Hinzufügen eines Sentiment-Analyse-Agenten vor der Kategorisierung in der sequentiellen Pipeline, das Hinzufügen eines Sicherheits- oder Kontospezialisten zum parallelen Ausschuss, das Hinzufügen neuer Vorgesetztenaktionen wie „Weitere Informationen anfordern“ zum Mensch-in-der-Schleife-Schritt und die Kombination sequentieller und paralleler Muster in einen einzigen hybriden Workflow erfordert ein Verständnis dafür, wie die Executor-Klassen, die gemeinsame Client-Fabrik und die Datenmodelle im gesamten System verbunden sind.

Von RAG zu agentenbasiertem RAG übergehen

Standardanwendungen zur abrufgestützten Generierung (RAG) sind einfach zu starten, stoßen jedoch auf Fragestellungen, die grundlegende Abrufe schlecht behandeln, und diese Einschränkungen treten schnell zutage, sobald echte Benutzer mit dem System interagieren. Ja/nein-Fragen, Zählabfragen und mehrstufiges Denken belasten die Annahmen einer einzelnen Einbettungs-Suchpipeline auf eine Weise, die in der Produktion sofort sichtbar wird.

Der Fortschritt durch dieses Problem erfolgt in vier Phasen: Ingestion, einfache RAG, erweiterte RAG und agentenbasierte RAG. Die Sequenzierung ist absichtlich. Die Begegnung mit den Einschränkungen der naiven Abrufmethode macht den architektonischen Wechsel zu agentenbasiertem Abruf bedeutungsvoll, anstatt abstrakt, da die Lücken im einfacheren Ansatz bereits sichtbar sind, bevor die Lösung eingeführt wird.

Die Lösung verwendet das Microsoft Agent Framework mit einem Handoff-Workflow-Orchestrierungsmuster, das spezialisierte Agenten erstellt, die spezifische Suchfähigkeiten unterstützen, die durch Azure AI Search unterstützt werden. Das Handoff-Muster leitet eine Anfrage an den am besten geeigneten Spezialisten-Agenten weiter, anstatt jede Frage durch eine einzelne Abrufpipeline zu senden, was bedeutet, dass jeder Agent für den Abfragetyp optimiert werden kann, den er zu behandeln konzipiert ist. Die Implementierung umfasst vier Schritte: die anfängliche Einrichtung, einen Ja/Nein-Suchagenten, einen Zähl-Suchagenten und die verbleibenden Spezialistenagenten, wobei jeder neue Abrufmöglichkeiten zum Gesamtsystem hinzufügt.

Der architektonische Wechsel von standardmäßiger RAG ist signifikant und sollte explizit gemacht werden. Anstatt eine einzige Abrufpipeline zu haben, die versucht, alle Abfragetypen mit derselben Strategie zu behandeln, leitet ein Orchestrator an Agenten weiter, die auf unterschiedliche Abrufansätze spezialisiert sind, wobei Azure AI Search als gemeinsames Wissensrückgrat dient, auf das alle Spezialistenagenten zugreifen. Das Ergebnis ist ein System, das in der Lage ist, die gesamte Bandbreite von Fragestellungen zu beantworten, mit denen Standard-RAG-Anwendungen Schwierigkeiten haben, einschließlich Fragen, die ein Nachdenken über die abgerufenen Ergebnisse erfordern, anstatt sie einfach zurückzugeben.

Verstehen, warum diese vier Themen zusammengehören

Der Fortschritt spiegelt eine kohärente Sicht darauf wider, was für die agentenbasierte Entwicklung in produktionsreifer Form tatsächlich erforderlich ist, und die Reihenfolge, in der die Themen erscheinen, ist nicht willkürlich. Sicherheit hat Vorrang, da sie neu definiert, was funktionierender Code im agentenbasierten Kontext bedeutet, und von Anfang an festlegt, dass Fähigkeit und verantwortungsbewusstes Verhalten separate Eigenschaften sind, die unabhängig gemessen werden müssen. MCP legt fest, wie Agenten in standardisierter, interoperabler Weise mit externen Werkzeugen und Diensten kommunizieren – einschließlich der Erkenntnis, dass bestehende APIs ohne Backend-Modifikation überbrückt werden können, was es praktisch macht, Agenten mit realen Unternehmenssystemen zu verbinden, anstatt mit speziell entwickelten Spielzeug-Backends. Workflow-Muster zeigen, wie mehrere Agenten koordiniert werden und, entscheidend, wann eine Pause für einen Menschen eingelegt werden sollte, und führen die Kontrollstrukturen ein, die agentenbasierte Systeme vertrauenswürdig genug machen, um sie in bedeutenden Umgebungen einzusetzen. Agentic RAG demonstriert, wie Wissensabruf über einfache Nachschlagefunktionen hinaus skaliert, um die gesamte Bandbreite von Fragestellungen zu behandeln, die echte Benutzer stellen, und vervollständigt das Bild dessen, wie ein auf diesem Framework basierendes produktionsfähiges Wissenssystem aussieht.

Insgesamt bewegen sich die vier Bereiche von der Verhaltensbeobachtung über den Architekturaufbau bis hin zum Systembetrieb. Diese Progression trennt einen funktionierenden Prototyp von einem einsetzbaren System, und das Verständnis jeder Schicht erleichtert das Nachdenken über die nächste erheblich.

Rachel Kuznetsov hat einen Master in Business Analytics und liebt es, komplexe Datenrätsel zu lösen und nach neuen Herausforderungen zu suchen. Sie engagiert sich dafür, komplizierte Konzepte der Datenwissenschaft verständlicher zu machen und erkundet die verschiedenen Möglichkeiten, wie KI unser Leben beeinflusst. Auf ihrer kontinuierlichen Reise des Lernens und Wachstums dokumentiert sie ihren Weg, damit andere mit ihr lernen können. Sie finden sie auf LinkedIn.

Erhalten Sie das KOSTENLOSE E-Book ‚KDnuggets Artificial Intelligence Pocket Dictionary‘ zusammen mit dem führenden Newsletter zu Data Science, Machine Learning, KI & Analytics direkt in Ihr Postfach.

Mehr zum Thema:

„`

Bildquelle: ai-generated-gemini

KI Snack