Tipps & Tricks

Google Stax: Testing Models and Prompts Against Your Own Criteria

9 min Lesezeit
Google Stax: Testing Models and Prompts Against Your Own Criteria

Einleitung

Wenn Sie Anwendungen mit großen Sprachmodellen (LLMs) entwickeln, haben Sie möglicherweise bereits die Erfahrung gemacht, dass sich die Ausgabe verbessert, wenn Sie einen Prompt ändern und ihn mehrmals ausführen. Doch ist die Ausgabe tatsächlich besser? Ohne objektive Metriken sind Sie auf das angewiesen, was in der Branche als „Vibe-Testing“ bezeichnet wird, was bedeutet, Entscheidungen basierend auf Intuition anstelle von Daten zu treffen.

Die Herausforderung ergibt sich aus einer grundlegenden Eigenschaft von KI-Modellen: Unsicherheit. Im Gegensatz zu herkömmlicher Software, bei der dieselbe Eingabe immer die gleiche Ausgabe erzeugt, können LLMs unterschiedliche Antworten auf ähnliche Prompts generieren. Dies macht konventionelle Unit-Tests ineffektiv und lässt Entwickler im Ungewissen, ob ihre Änderungen tatsächlich die Leistung verbessert haben.

Hier kommt Google Stax ins Spiel, ein neues experimentelles Toolkit von Google DeepMind und Google Labs, das darauf abzielt, die Genauigkeit bei der Bewertung von KI zu erhöhen. In diesem Artikel betrachten wir, wie Stax Entwicklern und Datenwissenschaftlern ermöglicht, Modelle und Prompts anhand ihrer eigenen benutzerdefinierten Kriterien zu testen und subjektive Urteile durch wiederholbare, datengestützte Entscheidungen zu ersetzen.

Verständnis von Google Stax

Stax ist ein Entwicklerwerkzeug, das die Bewertung generativer KI-Modelle und -Anwendungen vereinfacht. Man kann es sich als ein Testframework vorstellen, das speziell für die einzigartigen Herausforderungen bei der Arbeit mit LLMs entwickelt wurde.

Im Kern löst Stax ein einfaches, aber entscheidendes Problem: Wie wissen Sie, ob ein Modell oder Prompt besser ist als ein anderes für Ihren spezifischen Anwendungsfall? Anstatt sich auf allgemeine Kriterien zu verlassen, die möglicherweise nicht den Anforderungen Ihrer Anwendung entsprechen, ermöglicht es Stax, zu definieren, was „gut“ für Ihr Projekt bedeutet, und gegen diese Standards zu messen.

  • Es hilft, eigene Erfolgskriterien über allgemeine Metriken wie Flüssigkeit und Sicherheit hinaus zu definieren.
  • Sie können verschiedene Prompts in verschiedenen Modellen nebeneinander testen.
  • Sie können datengestützte Entscheidungen treffen, indem Sie gesammelte Leistungsmetriken visualisieren, einschließlich Qualität, Latenz und Token-Nutzung.
  • Es kann Bewertungen in großem Maßstab mit Ihren eigenen Datensätzen durchführen.

Stax ist flexibel und unterstützt nicht nur die Gemini-Modelle von Google, sondern auch OpenAI’s GPT, Anthropic’s Claude, Mistral und andere über API-Integrationen. Agentic Vision: Gemini schreibt sich jetzt eigenen Code, um Bilder besser zu verstehen.

Über Standardbenchmarks hinausgehen

Allgemeine KI-Benchmarks erfüllen einen wichtigen Zweck, indem sie helfen, den Fortschritt von Modellen auf hoher Ebene zu verfolgen. Sie spiegeln jedoch oft nicht die spezifischen Anforderungen eines bestimmten Bereichs wider. Ein Modell, das in der offenen Domäne hervorragend abschneidet, kann bei spezialisierten Aufgaben wie:

  • Compliance-orientierter Zusammenfassung
  • Analyse juristischer Dokumente
  • Unternehmensspezifischen Fragen und Antworten
  • Einhaltung der Markenstimme

schlecht abschneiden. Die Lücke zwischen allgemeinen Benchmarks und realen Anwendungen ist der Bereich, in dem Stax einen Mehrwert bietet. Es ermöglicht Ihnen, KI-Systeme basierend auf Ihren Daten und Ihren Kriterien zu bewerten, nicht auf abstrakten globalen Punktzahlen. 90 Prozent Befolgung von Anweisungen: Google optimiert Audiomodelle.

Erste Schritte mit Stax

Schritt 1: Hinzufügen eines API-Schlüssels

Um Modellausgaben zu generieren und Bewertungen durchzuführen, müssen Sie einen API-Schlüssel hinzufügen. Stax empfiehlt, mit einem Gemini-API-Schlüssel zu beginnen, da die integrierten Evaluatoren diesen standardmäßig verwenden, obwohl Sie sie so konfigurieren können, dass sie andere Modelle verwenden. Sie können Ihren ersten Schlüssel während der Einarbeitung oder später in den Einstellungen hinzufügen.

Um mehrere Anbieter zu vergleichen, fügen Sie Schlüssel für jedes Modell hinzu, das Sie testen möchten; dies ermöglicht einen parallelen Vergleich, ohne die Werkzeuge wechseln zu müssen.

Schritt 2: Erstellen eines Evaluierungsprojekts

Projekte sind der zentrale Arbeitsbereich in Stax. Jedes Projekt entspricht einem einzelnen Evaluierungsexperiment, zum Beispiel dem Testen eines neuen Systemprompts oder dem Vergleich zweier Modelle.

Sie wählen zwischen zwei Projekttypen:

  • Einzelmodell: Baseline-Leistung oder Test einer Iteration eines Modells oder Systemprompts.
  • Side-by-Side: Direkter Vergleich zweier unterschiedlicher Modelle oder Prompts auf demselben Datensatz.

Schritt 3: Erstellen Ihres Datensatzes

Eine solide Bewertung beginnt mit Daten, die genau sind und Ihre realen Anwendungsfälle widerspiegeln. Stax bietet zwei Hauptmethoden, um dies zu erreichen:

  • Option A: Daten manuell im Prompt Playground hinzufügen. Wenn Sie keinen vorhandenen Datensatz haben, erstellen Sie einen von Grund auf neu:
    • Wählen Sie die Modell(e) aus, die Sie testen möchten.
    • Setzen Sie einen Systemprompt (optional), um die Rolle der KI zu definieren.
    • Fügen Sie Benutzerprompts hinzu, die reale Benutzeranfragen repräsentieren.
    • Geben Sie menschliche Bewertungen (optional) an, um Basisqualitätswerte zu erstellen.
  • Option B: Hochladen eines vorhandenen Datensatzes. Für Teams mit Produktionsdaten können CSV-Dateien direkt hochgeladen werden. Wenn Ihr Datensatz keine Modelloutputs enthält, klicken Sie auf „Outputs generieren“ und wählen Sie ein Modell aus, um diese zu generieren.

Best Practice: Schließen Sie Randfälle und widersprüchliche Beispiele in Ihren Datensatz ein, um umfassende Tests sicherzustellen.

Bewertung von KI-Ausgaben

Durchführung manueller Bewertungen

Sie können menschliche Bewertungen für einzelne Ausgaben direkt im Playground oder im Projektbenchmark bereitstellen. Während die menschliche Bewertung als „Goldstandard“ gilt, ist sie langsam, teuer und schwer zu skalieren.

Durchführung automatisierter Bewertungen mit Autoratern

Um viele Ausgaben auf einmal zu bewerten, verwendet Stax die LLM-as-Judge-Bewertung, bei der ein leistungsstarkes KI-Modell die Ausgaben eines anderen Modells basierend auf Ihren Kriterien bewertet.

Stax enthält vorinstallierte Evaluatoren für gängige Metriken:

  • Flüssigkeit
  • Faktische Konsistenz
  • Sicherheit
  • Einhalten von Anweisungen
  • Kürze

Nutzung benutzerdefinierter Evaluatoren

Während vorinstallierte Evaluatoren einen hervorragenden Ausgangspunkt bieten, ist der Aufbau benutzerdefinierter Evaluatoren der beste Weg, um zu messen, was für Ihren spezifischen Anwendungsfall wichtig ist.

Benutzerdefinierte Evaluatoren ermöglichen es Ihnen, spezifische Kriterien zu definieren, wie:

  • „Ist die Antwort hilfreich, aber nicht zu vertraut?“
  • „Enthält die Ausgabe personenbezogene Daten (PII)?“
  • „Folgt der generierte Code unserem internen Stilrichtlinien?“
  • „Ist die Markenstimme konsistent mit unseren Richtlinien?“

Um einen benutzerdefinierten Evaluator zu erstellen: Definieren Sie Ihre klaren Kriterien, schreiben Sie einen Prompt für das Bewertungsmodell, der eine Bewertungscheckliste enthält, und testen Sie ihn an einer kleinen Stichprobe manuell bewerteter Ausgaben, um die Übereinstimmung sicherzustellen.

Praktische Anwendungsfälle erkunden

Überprüfung Anwendungsfall 1: Kundenservice-Chatbot

Stellen Sie sich vor, Sie entwickeln einen Kundenservice-Chatbot. Ihre Anforderungen könnten Folgendes umfassen:

  • Professioneller Ton
  • Genauigkeit der Antworten basierend auf Ihrer Wissensdatenbank
  • Keine Halluzinationen
  • Behebung häufiger Probleme innerhalb von drei Austauschvorgängen

Mit Stax würden Sie:

  • Ein Dataset mit echten Kundenanfragen hochladen.
  • Antworten von verschiedenen Modellen (oder verschiedenen Prompt-Versionen) generieren.
  • Ein benutzerdefinierten Evaluator erstellen, der Professionalität und Genauigkeit bewertet.
  • Die Ergebnisse nebeneinander vergleichen, um die beste Leistung auszuwählen.

Überprüfung Anwendungsfall 2: Inhaltszusammenfassungstool

Für eine Nachrichtenzusammenfassungsanwendung sind Ihnen folgende Punkte wichtig:

  • Kürze (Zusammenfassungen unter 100 Wörtern)
  • Faktische Konsistenz mit dem Originalartikel
  • Erhaltung wichtiger Informationen

Die Verwendung des vorgefertigten Evaluators für Zusammenfassungsqualität von Stax gibt Ihnen sofortige Metriken, während benutzerdefinierte Evaluatoren spezifische Längenbeschränkungen oder Anforderungen an die Markenstimme durchsetzen können.

Ergebnisse interpretieren

Sobald die Bewertungen abgeschlossen sind, fügt Stax neue Spalten zu Ihrem Datensatz hinzu, die Punktzahlen und Begründungen für jede Ausgabe anzeigen. Der Abschnitt Projektmetriken bietet eine aggregierte Ansicht von:

  • Menschlichen Bewertungen
  • Durchschnittlichen Evaluator-Punktzahlen
  • Inference-Latenz
  • Token-Zählungen

Nutzen Sie diese quantitativen Daten, um:

  • Iterationen zu vergleichen: Übertrifft Prompt A konstant Prompt B?
  • Zwischen Modellen zu wählen: Ist das schnellere Modell den leichten Qualitätsverlust wert?
  • Fortschritte zu verfolgen: Verbessern Ihre Optimierungen tatsächlich die Leistung?
  • Fehler zu identifizieren: Welche Eingaben führen konstant zu schlechten Ausgaben?

Best Practices für effektive Bewertungen umsetzen

Beginnen Sie klein und skalieren Sie dann: Sie benötigen nicht Hunderte von Testfällen, um einen Mehrwert zu erzielen. Ein Evaluationsset mit nur zehn hochwertigen Prompts ist unendlich wertvoller als sich allein auf Vibe-Tests zu verlassen. Beginnen Sie mit einem fokussierten Set und erweitern Sie es, während Sie lernen.

Erstellen Sie Regressionstests: Ihre Bewertungen sollten Tests beinhalten, die die bestehende Qualität schützen. Zum Beispiel: „Immer gültiges JSON ausgeben“ oder „Nie Namen von Wettbewerbern einfügen.“ Diese verhindern, dass neue Änderungen das bereits funktionierende System beeinträchtigen.

Erstellen Sie Herausforderungssets: Erstellen Sie Datensätze, die auf Bereiche abzielen, in denen Sie möchten, dass Ihre KI sich verbessert. Wenn Ihr Modell Schwierigkeiten mit komplexem Denken hat, erstellen Sie ein Herausforderungsset speziell für diese Fähigkeit.

Verzichten Sie nicht auf menschliche Überprüfung: Während automatisierte Bewertungen gut skalieren, bleibt es entscheidend, dass Ihr Team Ihr KI-Produkt nutzt, um Intuition aufzubauen. Verwenden Sie Stax, um überzeugende Beispiele aus menschlichen Tests zu erfassen und in Ihre formalen Evaluierungsdatensätze zu integrieren.

Häufig gestellte Fragen

Was ist Google Stax? Stax ist ein Entwicklerwerkzeug von Google zur Bewertung von LLM-gestützten Anwendungen. Es hilft Ihnen, Modelle und Prompts anhand Ihrer eigenen Kriterien zu testen, anstatt sich auf allgemeine Benchmarks zu verlassen.

Wie funktioniert Stax AI? Stax verwendet einen „LLM-as-Judge“-Ansatz, bei dem Sie Bewertungskriterien definieren und ein KI-Modell die Ausgaben basierend auf diesen Kriterien bewertet. Sie können vorgefertigte Evaluatoren verwenden oder benutzerdefinierte erstellen.

Welches Tool von Google ermöglicht es Einzelpersonen, ihre eigenen Machine-Learning-Modelle zu erstellen? Während Stax sich auf die Bewertung konzentriert, funktioniert es zusammen mit anderen Google-AI-Tools. Zum Erstellen und Trainieren von Modellen verwenden Sie typischerweise TensorFlow oder Vertex AI. Stax hilft dann, die Leistung dieser Modelle zu bewerten.

Was ist Googles Pendant zu ChatGPT? Googles primäre Konversations-KI ist Gemini (ehemals Bard). Stax kann Ihnen helfen, Prompts für Gemini zu testen und zu optimieren und dessen Leistung mit anderen Modellen zu vergleichen.

Kann ich KI mit meinen eigenen Daten trainieren? Stax trainiert keine Modelle; es bewertet sie. Sie können jedoch Ihre eigenen Daten als Testfälle verwenden, um vortrainierte Modelle zu bewerten. Zum Trainieren benutzerdefinierter Modelle mit Ihren Daten verwenden Sie Tools wie Vertex AI.

Fazit

Die Ära des Vibe-Testings neigt sich dem Ende zu. Da KI von experimentellen Demos zu Produktionssystemen übergeht, wird eine detaillierte Bewertung wichtig. Google Stax bietet den Rahmen, um zu definieren, was „gut“ für Ihren einzigartigen Anwendungsfall bedeutet, und die Werkzeuge, um dies systematisch zu messen.

Durch den Austausch subjektiver Urteile gegen wiederholbare, datengestützte Bewertungen hilft Stax Ihnen:

  • KI-Funktionen mit Vertrauen zu implementieren
  • Informierte Entscheidungen über die Modellauswahl zu treffen
  • Schneller an Prompts und Systemanweisungen zu iterieren
  • KI-Produkte zu entwickeln, die zuverlässig den Bedürfnissen der Benutzer entsprechen

Egal, ob Sie ein Anfänger in der Datenwissenschaft oder ein erfahrener ML-Ingenieur sind, die Einführung strukturierter Bewertungspraktiken wird die Art und Weise, wie Sie mit KI arbeiten, transformieren. Beginnen Sie klein, definieren Sie, was für Ihre Anwendung wichtig ist, und lassen Sie Daten Ihre Entscheidungen leiten.

Bereit, über Vibe-Testing hinauszugehen? Besuchen Sie stax.withgoogle.com, um das Tool zu erkunden und der Gemeinschaft von Entwicklern beizutreten, die bessere KI-Anwendungen entwickeln. Wie kann Claude Code in einer Stunde Ergebnisse liefern, die Google ein Jahr kosteten?

„`

Bildquelle: ai-generated-gemini

KI Snack

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert