Tipps & Tricks

Effiziente Strategien zur Reduzierung der Token-Nutzung bei Claude Code

8 min Lesezeit
Effiziente Strategien zur Reduzierung der Token-Nutzung bei Claude Code

Claude Code ist äußerst nützlich, kann jedoch schneller kostspielig werden, als viele Nutzer erwarten. Der Grund dafür ist einfach: Man zahlt nicht nur für den eingegebenen Prompt, sondern auch für den gesamten Kontext der Sitzung, einschließlich früherer Nachrichten, bereits gelesener Dateien, Ausgaben von Tools, Gedächtnisdateien wie CLAUDE.md und weiteren Hintergrundanweisungen. Wenn die Token-Nutzung steigt, liegt das Problem häufig nicht an schlechten Prompts, sondern an einem unübersichtlichen Kontext.

Viele allgemeine Ratschläge zu diesem Thema sind wenig hilfreich. Der Hinweis, „Gespräche kurz zu halten“, ist zwar richtig, sagt jedoch nicht, was tatsächlich entscheidend ist. Wichtiger ist es, zu verstehen, wie Claude Code den Kontext aufbaut, was immer wieder gesendet wird und welche Teile des Arbeitsablaufs im Laufe der Zeit unbemerkt Ressourcen verschwenden. In diesem Artikel werden sieben praktische Methoden vorgestellt, die Ihnen helfen, Claude Code effizient zu nutzen, ohne ständig über die Kosten nachdenken zu müssen. Lassen Sie uns beginnen.

1. Modelle je nach Aufgabenkomplexität wechseln

Diese Strategie ist einfach, wird jedoch oft nicht ausreichend genutzt. Nicht jede Aufgabe erfordert das teuerste Modell. Bei der API-Abrechnung kostet Opus fünfmal mehr als Sonnet pro Token. Bei Abonnements verbrauchen schwerere Modelle Ihr Kontingent schneller.

  • /model sonnet – Für alltägliche Aufgaben: Tests schreiben, einfache Bearbeitungen, Code erklären, Refactoring.
  • /model opus – Für komplexe Aufgaben: Entscheidungen zu Multi-File-Architekturen, Debugging von schwierigen Systemproblemen.
  • /model haiku – Für schnelle Aufgaben: Nachschlagen, Formatieren, Umbenennen, alles, was repetitiv ist.

Starten Sie jede Sitzung mit Sonnet. Wechseln Sie nur zu Opus, wenn Sie wirklich eine tiefgehende Analyse oder komplexes Refactoring benötigen. Für mechanische Aufgaben können Sie auf Haiku zurückgreifen. Zudem können Sie den Aufwand direkt mit /effort steuern. Bei einfachen Aufgaben senkt eine Reduzierung des Aufwandes das Denkbudget, das das Modell zuweist, was direkt Token spart.

2. CLAUDE.md klein und nützlich halten

Eine der besten Methoden, um Token zu sparen, besteht darin, zu vermeiden, dass dieselben Projektregeln in jedem Chat erneut eingegeben werden. Genau dafür ist CLAUDE.md gedacht. Es wird geladen, bevor Claude Ihren Code liest, bevor es Ihre Aufgabe versteht und bevor irgendetwas anderes geschieht. Es bleibt während der gesamten Sitzung im Kontextfenster und wird niemals faul geladen oder entfernt. Das bedeutet, dass ein 5.000-Token CLAUDE.md in jeder einzelnen Runde 5.000 Token kostet, egal ob Sie 2 Nachrichten oder 200 senden. Platzieren Sie daher Ihre stabilen Anweisungen dort: wie Tests ausgeführt werden, welcher Paketmanager verwendet werden soll, Ihre Formatierungsregeln, wichtige architektonische Einschränkungen und die Verzeichnisse, die Claude meiden sollte. Dies reduziert die wiederholte Aufforderung über mehrere Sitzungen hinweg.

Ein weiterer wichtiger Aspekt ist, es schlank zu halten. Vermeiden Sie es, Besprechungsnotizen, Designhistorien oder lange Implementierungsanleitungen einzufügen. Die besten Ergebnisse erzielen Sie, wenn CLAUDE.md mehr wie eine Nachschlagetabelle als wie eine riesige Gedächtnisablage funktioniert.

3. Ausführliche Arbeiten an Subagenten delegieren

Dies ist einer der wirklich hilfreichen Tipps, da er die Art und Weise verändert, wie der Kontext wächst. Subagenten sind isolierte Claude-Instanzen, die in ihrem eigenen Kontextfenster arbeiten. Wenn ein Subagent läuft, bleibt seine ausführliche Ausgabe – Dateisuchen, Protokolldumps, mehrstufiges Denken – isoliert. Nur die Zusammenfassung wird in Ihr Hauptgespräch zurückgegeben. Dies kann Ihren Hauptstrang viel sauberer halten. Allerdings kann hier auch viel allgemeiner Rat irreführend sein. Subagenten sind nicht automatisch günstiger. Tests in der Community zeigen, dass Subagenten bei kleinen Aufgaben, insbesondere bei einfachen Shell-Aktionen oder schnellen Git-Operationen, verschwenderisch sein können, da die Architektur selbst durch Prompts, Tool-Definitionen und zusätzliche Tool-Aufruf-Rundreisen zusätzlichen Aufwand verursacht. Daher lautet die praktische Regel nicht „verwenden Sie Subagenten für alles“, sondern „verwenden Sie Subagenten, wenn die Einsparungen im Hauptkontext mehr wert sind als die Startkosten“.

4. Claude auf genaue Dateien und Zeilenbereiche verweisen

Eine der schnellsten Möglichkeiten, Token zu verschwenden, besteht darin, Claude zu bitten, „im Repository herumzuschauen“, wenn das Problem tatsächlich in ein oder zwei Dateien liegt. Je vager die Aufgabe, desto wahrscheinlicher ist es, dass Claude Token ausgibt, um mehrere Dateien zu öffnen, Sackgassen zu erkunden und den Kontext neu zu konstruieren, den Sie ihm direkt hätten übergeben können. Hier ein Beispiel:

Ursprünglich: „Durchsuchen Sie den Authentifizierungscode und sagen Sie mir, was falsch ist.“

Besser: „Vergleichen Sie die Zeilen 30 bis 90 in src/auth/session.ts mit den Zeilen 10 bis 60 in src/api/login.ts und erklären Sie die Abweichung.“

Die erste Formulierung klingt natürlich, führt jedoch häufig zu kostspieligen Erkundungen.

Ein weiterer Tipp ist, den Planmodus vor kostspieligen Operationen zu verwenden. Aktivieren Sie ihn mit Shift+Tab. Im Planmodus gibt Claude einen Schritt-für-Schritt-Plan aus, ohne Änderungen vorzunehmen. Sie überprüfen den Plan, entfernen alles Unnötige und wechseln dann zurück in den Normalmodus. Dies beseitigt die größte Quelle der Token-Verschwendung: Versuch-und-Irrtum-Ausführungen, bei denen Claude Dinge ausprobiert, auf Fehler stößt und iteriert – wobei jede Iteration Token kostet.

5. /compact proaktiv (nicht reaktiv) nutzen

Claude kann Ihre Sitzung automatisch komprimieren, und Sie können auch selbst /compact ausführen. Doch das Timing ist entscheidender, als viele denken.

Nachdem Claude mehrere Dateien inspiziert, Befehle ausgeführt und einige falsche Fährten erkundet hat, enthält Ihre Sitzung in der Regel viele Materialien, die nicht mehr relevant sind. Das ist der richtige Zeitpunkt, um zu komprimieren. Anstatt all diesen zusätzlichen Kontext in den nächsten Schritt zu tragen, verkleinern Sie das Gespräch, sobald die wichtigen Teile klar sind, und setzen Sie dann mit einer viel leichteren Sitzung fort.

Ein häufiger Fehler ist es, /compact zu spät zu verwenden. Viele Entwickler warten, bis Claude anfängt, Dinge zu vergessen oder eine Kontextwarnung anzuzeigen. Zu diesem Zeitpunkt ist die Sitzung bereits überladen, und die Zusammenfassung ist nicht mehr so klar oder nützlich. Wenn Sie früher komprimieren, während die Sitzung noch „gesund“ ist, ist die Zusammenfassung viel besser. Sie behalten die Schlüsselinformationen, entfernen das Rauschen und vermeiden es, unnötige Tokens in jeden zukünftigen Schritt zu schleppen.

6. /context vor der Optimierung überprüfen

Eine der am meisten unterschätzten Ideen besteht einfach darin, zu überprüfen, was den Kontext verbraucht. Viel Token-Verschwendung erscheint mysteriös, bis man sich daran erinnert, dass der teure Teil möglicherweise nicht der sichtbare Prompt ist. Es könnte eine große Datei sein, die Claude zuvor gelesen hat, angesammelte Tool-Ausgaben, eine schwere Gedächtnisdatei oder der Aufwand zusätzlicher Werkzeuge.

Der Befehl /context ist Ihr Diagnosewerkzeug. Bevor Sie Ihren gesamten Arbeitsablauf ändern, schauen Sie sich an, was tatsächlich geladen oder wiederholt gesendet wird. In vielen Fällen kommt die größte Verbesserung nicht von besseren Prompts, sondern davon, einen „stillen Übeltäter“ zu entdecken, der in jeder Runde mitfährt. Daher ist es besser, nicht blind zu optimieren. Überprüfen Sie zuerst, was sich in Ihrem Kontext befindet. Entfernen oder reduzieren Sie dann die Teile, die tatsächlich für die Überladung verantwortlich sind.

7. Ihre Tool-Setup einfach halten

Claude Code kann mit vielen externen Tools und Datenquellen verbunden werden, was mächtig ist – aber mehr verbundene Werkzeuge können auch mehr Kontextaufwand bedeuten, sobald diese Tools ins Spiel kommen. Wenn zu viele Werkzeuge oder Hilfen beteiligt sind, kann das Modell mehr Aufwand mit sich ziehen, als die Aufgabe tatsächlich benötigt. Halten Sie Ihr Setup schlank. Verwenden Sie Integrationen, die ein echtes wiederkehrendes Problem lösen. Laden Sie Claude Code nicht mit jeder verfügbaren Fähigkeit auf, nur weil Sie es können.

Fazit

Die beste Methode zur Reduzierung der Token-Nutzung bei Claude Code besteht nicht darin, jeden Prompt zu überwachen. Vielmehr sollten Sie Ihren Arbeitsablauf so gestalten, dass Claude nur das sieht, was es wirklich benötigt. Die größten Erfolge erzielen Sie, indem Sie den automatischen Kontext steuern, den Suchbereich eingrenzen und verhindern, dass störende Nebenarbeiten die Hauptsitzung kontaminieren.

Hören Sie auf, nur über Prompts nachzudenken, und beginnen Sie, über die Architektur des Kontexts nachzudenken.

Die Autorin Kanwal Mehreen ist Maschinenbauingenieurin und technische Schriftstellerin mit einer tiefen Leidenschaft für Datenwissenschaft und der Schnittstelle zwischen KI und Medizin. Sie ist Mitautorin des E-Books Maximizing Productivity with ChatGPT. Als Google Generation Scholar 2022 für APAC setzt sie sich für Vielfalt und akademische Exzellenz ein. Zudem wurde sie als Teradata Diversity in Tech Scholar, Mitacs Globalink Research Scholar und Harvard WeCode Scholar anerkannt. Kanwal ist eine leidenschaftliche Verfechterin des Wandels und hat FEMCodes gegründet, um Frauen in MINT-Berufen zu stärken.

Mehr zum Thema:

„`

Bildquelle: ai-generated-gemini

KI Snack