Der Anfängerleitfaden zum Verfolgen der Token-Nutzung in LLM-Apps

Bild vom Autor | Ideogram.ai

# Einführung

Beim Erstellen großer Sprachmodellanwendungen sind Token Geld. Wenn Sie jemals mit einem LLM wie GPT-4 gearbeitet haben, hatten Sie wahrscheinlich den Second, in dem Sie die Rechnung überprüften und dachten: „Wie ist es so hoch geworden?!“ Jeder von Ihnen durchgeführte API-Aufruf verbraucht Token, was sich direkt auf die Latenz und die Kosten auswirkt. Aber ohne sie zu verfolgen, haben Sie keine Ahnung, wofür sie ausgegeben werden und wie Sie sie optimieren können.

Das ist wo LangSmith kommt ins Spiel. Es verfolgt nicht nur Ihre LLM-Aufrufe, sondern ermöglicht Ihnen auch die Protokollierung, Überwachung und Visualisierung der Token-Nutzung für jeden Schritt in Ihrem Workflow. In diesem Leitfaden behandeln wir Folgendes:

Warum ist Token-Monitoring wichtig?
Wie richte ich die Protokollierung ein?
Wie kann der Token-Verbrauch im LangSmith-Dashboard visualisiert werden?

# Warum ist Token-Monitoring wichtig?

Die Nachverfolgung von Token ist wichtig, da jede Interaktion mit einem großen Sprachmodell direkte Kosten verursacht, die von der Anzahl der verarbeiteten Token abhängig sind, sowohl in Ihren Eingaben als auch in den Ausgaben des Modells. Ohne Überwachung können kleine Ineffizienzen bei Eingabeaufforderungen, unnötiger Kontext oder redundante Anfragen Ihre Rechnung in die Höhe treiben und die Leistung verlangsamen.

Durch die Nachverfolgung von Token erhalten Sie einen genauen Überblick darüber, wo sie verbraucht werden. Auf diese Weise können Sie Eingabeaufforderungen optimieren, Arbeitsabläufe rationalisieren und die Kostenkontrolle behalten. Wenn Ihr Chatbot beispielsweise 1.500 Token professional Anfrage verwendet, können die Kosten durch eine Reduzierung auf 800 Token quick halbiert werden. Das Token-Monitoring-Konzept funktioniert irgendwie so:

Warum ist Token-Tracking wichtig?

# Einrichten von LangSmith für die Token-Protokollierung

// Schritt 1: Erforderliche Pakete installieren

pip3 set up langchain langsmith transformers speed up langchain_community

// Schritt 2: Führen Sie alle erforderlichen Importe durch

import os
from transformers import pipeline
from langchain.llms import HuggingFacePipeline
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
from langsmith import traceable

// Schritt 3: Langsmith konfigurieren

Stellen Sie Ihre ein API-Schlüssel und Projektname:

# Exchange along with your API key
os.environ("LANGCHAIN_API_KEY") = "your-api-key"
os.environ("LANGCHAIN_PROJECT") = "HF_FLAN_T5_Base_Demo"
os.environ("LANGCHAIN_TRACING_V2") = "true"


# Non-compulsory: disable tokenizer parallelism warnings
os.environ("TOKENIZERS_PARALLELISM") = "false"

// Schritt 4: Laden Sie ein Hugging Face-Modell

Verwenden Sie ein CPU-freundliches Modell wie google/flan-t5-base und aktivieren Sie das Sampling für natürlichere Ergebnisse:

model_name = "google/flan-t5-base"
pipe = pipeline(
   "text2text-generation",
   mannequin=model_name,
   tokenizer=model_name,
   system=-1,      # CPU
   max_new_tokens=60,
   do_sample=True, # allow sampling
   temperature=0.7
)
llm = HuggingFacePipeline(pipeline=pipe)

// Schritt 5: Erstellen Sie eine Eingabeaufforderung und eine Kette

Definieren Sie eine Eingabeaufforderungsvorlage und verbinden Sie sie mithilfe von LLMChain mit Ihrer Hugging Face-Pipeline:

prompt_template = PromptTemplate.from_template(
   "Clarify gravity to a 10-year-old in about 20 phrases utilizing a enjoyable analogy."
)


chain = LLMChain(llm=llm, immediate=prompt_template)

// Schritt 6: Machen Sie die Funktion mit LangSmith rückverfolgbar

Verwenden Sie den @traceable-Dekorator, um Eingaben, Ausgaben, Token-Nutzung und Laufzeit automatisch zu protokollieren:

@traceable(identify="HF Clarify Gravity")
def explain_gravity():
   return chain.run({})

// Schritt 7: Führen Sie die Funktion aus und drucken Sie die Ergebnisse aus

reply = explain_gravity()
print("n=== Hugging Face Mannequin Reply ===")
print(reply)

Ausgabe:

=== Hugging Face Mannequin Reply ===
Gravity is a measure of mass of an object.

// Schritt 8: Überprüfen Sie das Langsmith-Dashboard

Gehe zu smith.langchain.com → Projekte verfolgen. Sie werden etwas wie:

Langsmith Dashboard – Projekte verfolgen

Sie können sogar die mit jedem Projekt verbundenen Kosten sehen und so Ihre Abrechnung analysieren. Um nun die Verwendung von Tokens und andere Erkenntnisse zu sehen, klicken Sie auf Ihr Projekt. Und Sie werden sehen:

Langsmith-Dashboard – Anzahl der Läufe

Das rote Feld hebt die Anzahl der Durchläufe hervor, die Sie für Ihr Projekt durchgeführt haben, und listet diese auf. Klicken Sie auf einen beliebigen Lauf und Sie werden Folgendes sehen:

Langsmith Dashboard – Token-Einblicke

Hier können Sie verschiedene Dinge sehen, wie z. B. die Gesamtzahl der Token, die Latenz usw. Klicken Sie wie unten gezeigt auf das Dashboard:

Langsmith-Dashboard

Jetzt können Sie Diagramme im Zeitverlauf anzeigen, um Token-Nutzungstrends zu verfolgen, die durchschnittliche Latenz professional Anfrage zu überprüfen, Eingabe- und Ausgabe-Tokens zu vergleichen und Spitzennutzungszeiten zu identifizieren. Diese Erkenntnisse helfen dabei, Eingabeaufforderungen zu optimieren, Kosten zu verwalten und die Modellleistung zu verbessern.

Langsmith-Dashboard – Diagramm

Bitte scrollen Sie nach unten, um alle mit Ihrem Projekt verknüpften Diagramme anzuzeigen.

// Schritt 9: Erkunden Sie das LangSmith-Dashboard

Sie können viele der Erkenntnisse analysieren, wie zum Beispiel:

Beispielspuren anzeigen: Klicken Sie auf eine Ablaufverfolgung, um die detaillierte Ausführung anzuzeigen, einschließlich Roheingabe, generierter Ausgabe und Leistungsmetriken
Einzelne Spuren prüfen: Für jede Ablaufverfolgung können Sie jeden Schritt der Ausführung untersuchen und Eingabeaufforderungen, Ausgaben, Token-Nutzung und Latenz anzeigen
Überprüfen Sie die Token-Nutzung und Latenz: Detaillierte Token-Zählungen und Verarbeitungszeiten helfen dabei, Engpässe zu erkennen und die Leistung zu optimieren
Bewertungsketten: Verwenden Sie die Evaluierungstools von LangSmith, um Szenarien zu testen, die Modellleistung zu verfolgen und Ergebnisse zu vergleichen
Experimentieren Sie auf dem Spielplatz: Passen Sie Parameter wie Temperatur, Eingabeaufforderungsvorlagen oder Probenahmeeinstellungen an, um das Verhalten Ihres Modells zu optimieren

Mit diesem Setup haben Sie jetzt im LangSmith-Dashboard vollständige Sicht auf die Ausführungen Ihres Hugging Face-Modells, die Token-Nutzung und die Gesamtleistung.

# Wie erkennt und behebt man Token Hogs?

Sobald Sie über die Protokollierung verfügen, können Sie:

Überprüfen Sie, ob die Eingabeaufforderungen zu lang sind
Identifizieren Sie Aufrufe, bei denen das Modell zu viel generiert
Wechseln Sie für günstigere Aufgaben zu kleineren Modellen
Antworten zwischenspeichern, um doppelte Anfragen zu vermeiden

Dies ist Gold wert, um lange Ketten oder Agenten zu debuggen. Finden Sie den Schritt, der die meisten Token frisst, und beheben Sie ihn.

# Zusammenfassung

So können Sie Langsmith einrichten und nutzen. Bei der Protokollierung der Token-Nutzung geht es nicht nur darum, Geld zu sparen, sondern auch darum, intelligentere und effizientere LLM-Apps zu entwickeln. Der Leitfaden bietet eine Grundlage. Sie können mehr erfahren, indem Sie Ihre eigenen Arbeitsabläufe erkunden, experimentieren und analysieren.

Kanwal Mehreen ist ein Ingenieur für maschinelles Lernen und ein technischer Redakteur mit einer großen Leidenschaft für Datenwissenschaft und die Schnittstelle zwischen KI und Medizin. Sie ist Mitautorin des E-Books „Maximizing Productiveness with ChatGPT“. Als Google Era Scholar 2022 für APAC setzt sie sich für Vielfalt und akademische Exzellenz ein. Sie ist außerdem als Teradata Range in Tech Scholar, Mitacs Globalink Analysis Scholar und Harvard WeCode Scholar anerkannt. Kanwal ist ein leidenschaftlicher Verfechter von Veränderungen und hat FEMCodes gegründet, um Frauen in MINT-Bereichen zu stärken.

Der Anfängerleitfaden zum Verfolgen der Token-Nutzung in LLM-Apps

# Einführung

# Warum ist Token-Monitoring wichtig?

# Einrichten von LangSmith für die Token-Protokollierung

// Schritt 1: Erforderliche Pakete installieren

// Schritt 2: Führen Sie alle erforderlichen Importe durch

// Schritt 3: Langsmith konfigurieren

// Schritt 4: Laden Sie ein Hugging Face-Modell

// Schritt 5: Erstellen Sie eine Eingabeaufforderung und eine Kette

// Schritt 6: Machen Sie die Funktion mit LangSmith rückverfolgbar

// Schritt 7: Führen Sie die Funktion aus und drucken Sie die Ergebnisse aus

// Schritt 8: Überprüfen Sie das Langsmith-Dashboard

// Schritt 9: Erkunden Sie das LangSmith-Dashboard

# Wie erkennt und behebt man Token Hogs?

# Zusammenfassung

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

5 nützliche Python-Skripte für effektives Function-Engineering

Extrahieren klinischer Informationen aus EHRs mithilfe von NLP- und KI-Modellen

Agentische KI im Information Engineering: Autonomie, Kontrolle und die Realität dazwischen

Die 10 bestbezahlten Unternehmen in Indien für Knowledge-Science-Rollen

About

Categories

Tags

Recent Post

5 nützliche Python-Skripte für effektives Function-Engineering

Extrahieren klinischer Informationen aus EHRs mithilfe von NLP- und KI-Modellen

# Einführung

# Warum ist Token-Monitoring wichtig?

# Einrichten von LangSmith für die Token-Protokollierung

// Schritt 1: Erforderliche Pakete installieren

// Schritt 2: Führen Sie alle erforderlichen Importe durch

// Schritt 3: Langsmith konfigurieren

// Schritt 4: Laden Sie ein Hugging Face-Modell

// Schritt 5: Erstellen Sie eine Eingabeaufforderung und eine Kette

// Schritt 6: Machen Sie die Funktion mit LangSmith rückverfolgbar

// Schritt 7: Führen Sie die Funktion aus und drucken Sie die Ergebnisse aus

// Schritt 8: Überprüfen Sie das Langsmith-Dashboard

// Schritt 9: Erkunden Sie das LangSmith-Dashboard

# Wie erkennt und behebt man Token Hogs?

# Zusammenfassung

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt