Bild vom Autor | Ideogram.ai
# Einführung
Beim Erstellen großer Sprachmodellanwendungen sind Token Geld. Wenn Sie jemals mit einem LLM wie GPT-4 gearbeitet haben, hatten Sie wahrscheinlich den Second, in dem Sie die Rechnung überprüften und dachten: „Wie ist es so hoch geworden?!“ Jeder von Ihnen durchgeführte API-Aufruf verbraucht Token, was sich direkt auf die Latenz und die Kosten auswirkt. Aber ohne sie zu verfolgen, haben Sie keine Ahnung, wofür sie ausgegeben werden und wie Sie sie optimieren können.
Das ist wo LangSmith kommt ins Spiel. Es verfolgt nicht nur Ihre LLM-Aufrufe, sondern ermöglicht Ihnen auch die Protokollierung, Überwachung und Visualisierung der Token-Nutzung für jeden Schritt in Ihrem Workflow. In diesem Leitfaden behandeln wir Folgendes:
- Warum ist Token-Monitoring wichtig?
- Wie richte ich die Protokollierung ein?
- Wie kann der Token-Verbrauch im LangSmith-Dashboard visualisiert werden?
# Warum ist Token-Monitoring wichtig?
Die Nachverfolgung von Token ist wichtig, da jede Interaktion mit einem großen Sprachmodell direkte Kosten verursacht, die von der Anzahl der verarbeiteten Token abhängig sind, sowohl in Ihren Eingaben als auch in den Ausgaben des Modells. Ohne Überwachung können kleine Ineffizienzen bei Eingabeaufforderungen, unnötiger Kontext oder redundante Anfragen Ihre Rechnung in die Höhe treiben und die Leistung verlangsamen.
Durch die Nachverfolgung von Token erhalten Sie einen genauen Überblick darüber, wo sie verbraucht werden. Auf diese Weise können Sie Eingabeaufforderungen optimieren, Arbeitsabläufe rationalisieren und die Kostenkontrolle behalten. Wenn Ihr Chatbot beispielsweise 1.500 Token professional Anfrage verwendet, können die Kosten durch eine Reduzierung auf 800 Token quick halbiert werden. Das Token-Monitoring-Konzept funktioniert irgendwie so:


# Einrichten von LangSmith für die Token-Protokollierung
// Schritt 1: Erforderliche Pakete installieren
pip3 set up langchain langsmith transformers speed up langchain_community
// Schritt 2: Führen Sie alle erforderlichen Importe durch
import os
from transformers import pipeline
from langchain.llms import HuggingFacePipeline
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
from langsmith import traceable
// Schritt 3: Langsmith konfigurieren
Stellen Sie Ihre ein API-Schlüssel und Projektname:
# Exchange along with your API key
os.environ("LANGCHAIN_API_KEY") = "your-api-key"
os.environ("LANGCHAIN_PROJECT") = "HF_FLAN_T5_Base_Demo"
os.environ("LANGCHAIN_TRACING_V2") = "true"
# Non-compulsory: disable tokenizer parallelism warnings
os.environ("TOKENIZERS_PARALLELISM") = "false"
// Schritt 4: Laden Sie ein Hugging Face-Modell
Verwenden Sie ein CPU-freundliches Modell wie google/flan-t5-base und aktivieren Sie das Sampling für natürlichere Ergebnisse:
model_name = "google/flan-t5-base"
pipe = pipeline(
"text2text-generation",
mannequin=model_name,
tokenizer=model_name,
system=-1, # CPU
max_new_tokens=60,
do_sample=True, # allow sampling
temperature=0.7
)
llm = HuggingFacePipeline(pipeline=pipe)
// Schritt 5: Erstellen Sie eine Eingabeaufforderung und eine Kette
Definieren Sie eine Eingabeaufforderungsvorlage und verbinden Sie sie mithilfe von LLMChain mit Ihrer Hugging Face-Pipeline:
prompt_template = PromptTemplate.from_template(
"Clarify gravity to a 10-year-old in about 20 phrases utilizing a enjoyable analogy."
)
chain = LLMChain(llm=llm, immediate=prompt_template)
// Schritt 6: Machen Sie die Funktion mit LangSmith rückverfolgbar
Verwenden Sie den @traceable-Dekorator, um Eingaben, Ausgaben, Token-Nutzung und Laufzeit automatisch zu protokollieren:
@traceable(identify="HF Clarify Gravity")
def explain_gravity():
return chain.run({})
// Schritt 7: Führen Sie die Funktion aus und drucken Sie die Ergebnisse aus
reply = explain_gravity()
print("n=== Hugging Face Mannequin Reply ===")
print(reply)
Ausgabe:
=== Hugging Face Mannequin Reply ===
Gravity is a measure of mass of an object.
// Schritt 8: Überprüfen Sie das Langsmith-Dashboard
Gehe zu smith.langchain.com → Projekte verfolgen. Sie werden etwas wie:


Sie können sogar die mit jedem Projekt verbundenen Kosten sehen und so Ihre Abrechnung analysieren. Um nun die Verwendung von Tokens und andere Erkenntnisse zu sehen, klicken Sie auf Ihr Projekt. Und Sie werden sehen:


Das rote Feld hebt die Anzahl der Durchläufe hervor, die Sie für Ihr Projekt durchgeführt haben, und listet diese auf. Klicken Sie auf einen beliebigen Lauf und Sie werden Folgendes sehen:

Hier können Sie verschiedene Dinge sehen, wie z. B. die Gesamtzahl der Token, die Latenz usw. Klicken Sie wie unten gezeigt auf das Dashboard:

Jetzt können Sie Diagramme im Zeitverlauf anzeigen, um Token-Nutzungstrends zu verfolgen, die durchschnittliche Latenz professional Anfrage zu überprüfen, Eingabe- und Ausgabe-Tokens zu vergleichen und Spitzennutzungszeiten zu identifizieren. Diese Erkenntnisse helfen dabei, Eingabeaufforderungen zu optimieren, Kosten zu verwalten und die Modellleistung zu verbessern.

Bitte scrollen Sie nach unten, um alle mit Ihrem Projekt verknüpften Diagramme anzuzeigen.
// Schritt 9: Erkunden Sie das LangSmith-Dashboard
Sie können viele der Erkenntnisse analysieren, wie zum Beispiel:
- Beispielspuren anzeigen: Klicken Sie auf eine Ablaufverfolgung, um die detaillierte Ausführung anzuzeigen, einschließlich Roheingabe, generierter Ausgabe und Leistungsmetriken
- Einzelne Spuren prüfen: Für jede Ablaufverfolgung können Sie jeden Schritt der Ausführung untersuchen und Eingabeaufforderungen, Ausgaben, Token-Nutzung und Latenz anzeigen
- Überprüfen Sie die Token-Nutzung und Latenz: Detaillierte Token-Zählungen und Verarbeitungszeiten helfen dabei, Engpässe zu erkennen und die Leistung zu optimieren
- Bewertungsketten: Verwenden Sie die Evaluierungstools von LangSmith, um Szenarien zu testen, die Modellleistung zu verfolgen und Ergebnisse zu vergleichen
- Experimentieren Sie auf dem Spielplatz: Passen Sie Parameter wie Temperatur, Eingabeaufforderungsvorlagen oder Probenahmeeinstellungen an, um das Verhalten Ihres Modells zu optimieren
Mit diesem Setup haben Sie jetzt im LangSmith-Dashboard vollständige Sicht auf die Ausführungen Ihres Hugging Face-Modells, die Token-Nutzung und die Gesamtleistung.
# Wie erkennt und behebt man Token Hogs?
Sobald Sie über die Protokollierung verfügen, können Sie:
- Überprüfen Sie, ob die Eingabeaufforderungen zu lang sind
- Identifizieren Sie Aufrufe, bei denen das Modell zu viel generiert
- Wechseln Sie für günstigere Aufgaben zu kleineren Modellen
- Antworten zwischenspeichern, um doppelte Anfragen zu vermeiden
Dies ist Gold wert, um lange Ketten oder Agenten zu debuggen. Finden Sie den Schritt, der die meisten Token frisst, und beheben Sie ihn.
# Zusammenfassung
So können Sie Langsmith einrichten und nutzen. Bei der Protokollierung der Token-Nutzung geht es nicht nur darum, Geld zu sparen, sondern auch darum, intelligentere und effizientere LLM-Apps zu entwickeln. Der Leitfaden bietet eine Grundlage. Sie können mehr erfahren, indem Sie Ihre eigenen Arbeitsabläufe erkunden, experimentieren und analysieren.
Kanwal Mehreen ist ein Ingenieur für maschinelles Lernen und ein technischer Redakteur mit einer großen Leidenschaft für Datenwissenschaft und die Schnittstelle zwischen KI und Medizin. Sie ist Mitautorin des E-Books „Maximizing Productiveness with ChatGPT“. Als Google Era Scholar 2022 für APAC setzt sie sich für Vielfalt und akademische Exzellenz ein. Sie ist außerdem als Teradata Range in Tech Scholar, Mitacs Globalink Analysis Scholar und Harvard WeCode Scholar anerkannt. Kanwal ist ein leidenschaftlicher Verfechter von Veränderungen und hat FEMCodes gegründet, um Frauen in MINT-Bereichen zu stärken.