Agentensysteme sind stochastisch, kontextabhängig und richtliniengebunden. Herkömmliche Qualitätssicherung – Unit-Checks, statische Eingabeaufforderungen oder skalare „LLM-as-a-Decide“-Bewertungen – deckt Multi-Flip-Schwachstellen nicht auf und liefert schwache Prüfpfade. Entwicklerteams benötigen protokollgenaue Gespräche, explizite Richtlinienprüfungen und maschinenlesbare Beweise, die Veröffentlichungen zuverlässig durchführen können.
Qualifire AI ist Open-Supply Schurkeein Python-Framework, das KI-Agenten über Agent-to-Agent (A2A) bewertet. Protokoll. Rogue wandelt Geschäftsrichtlinien in ausführbare Szenarien um, steuert Multi-Flip-Interaktionen mit einem Zielagenten und gibt deterministische Berichte aus, die für CI/CD- und Compliance-Überprüfungen geeignet sind.
Schnellstart
Voraussetzungen
- uvx – Wenn nicht installiert, folgen Sie den Anweisungen UV-Installationsanleitung
- Python 3.10+
- Ein API-Schlüssel für einen LLM-Anbieter (z. B. OpenAI, Google, Anthropic).
Set up
Choice 1: Schnellinstallation (empfohlen)
Nutzen Sie unser automatisiertes Installationsskript, um schnell loszulegen:
# TUI
uvx rogue-ai
# Internet UI
uvx rogue-ai ui
# CLI / CI/CD
uvx rogue-ai cli
Choice 2: Manuelle Set up
(a) Klonen Sie das Repository:
git clone https://github.com/qualifire-dev/rogue.git
cd rogue
(b) Abhängigkeiten installieren:
Wenn Sie UV verwenden:
Oder, wenn Sie pip verwenden:
(c) OPTIONAL: Richten Sie Ihre Umgebungsvariablen ein: Erstellen Sie eine .env-Datei im Stammverzeichnis und fügen Sie Ihre API-Schlüssel hinzu. Rogue verwendet LiteLLM, sodass Sie Schlüssel für verschiedene Anbieter festlegen können.
OPENAI_API_KEY="sk-..."
ANTHROPIC_API_KEY="sk-..."
GOOGLE_API_KEY="..."
Laufender Schurke
Rogue operiert auf einem Shopper-Server Architektur, bei der die Kernauswertungslogik auf einem Backend-Server ausgeführt wird und verschiedene Purchasers über unterschiedliche Schnittstellen eine Verbindung zu ihm herstellen.
Standardverhalten
Wenn Sie uvx rogue-ai ohne Angabe eines Modus ausführen, geschieht Folgendes:
- Startet den Rogue-Server im Hintergrund
- Startet den TUI-Shopper (Terminal Person Interface).
Verfügbare Modi
- Normal (Server + TUI): uvx rogue-ai – Startet Server im Hintergrund + TUI-Shopper
- Server: uvx rogue-ai server – Führt nur den Backend-Server aus
- TUI: uvx rogue-ai tui – Führt nur den TUI-Shopper aus (erfordert den laufenden Server)
- Internet-Benutzeroberfläche: uvx rogue-ai ui – Führt nur den Gradio-Webinterface-Shopper aus (erfordert den Betrieb eines Servers)
- CLI: uvx rogue-ai cli – Führt eine nicht interaktive Befehlszeilenauswertung durch (erfordert den laufenden Server, ideally suited für CI/CD)
Modusargumente
Servermodus
uvx rogue-ai server (OPTIONS)
Optionen:
- –host HOST – Host, auf dem der Server ausgeführt wird (Normal: 127.0.0.1 oder HOST-Umgebungsvariable)
- –port PORT – Port, auf dem der Server ausgeführt wird (Normal: 8000 oder PORT env var)
- –debug – Debug-Protokollierung aktivieren
TUI-Modus
uvx rogue-ai tui (OPTIONS)
Internet UI Mode
uvx rogue-ai ui (OPTIONS)
Optionen:
- –rogue-server-url URL – Rogue-Server-URL (Normal: http://localhost:8000)
- –port PORT – Port, auf dem die Benutzeroberfläche ausgeführt werden soll
- –workdir WORKDIR – Arbeitsverzeichnis (Normal: ./.rogue)
- –debug – Debug-Protokollierung aktivieren
Beispiel: Testen des T-Shirt Retailer Agent
Dieses Repository enthält einen einfachen Beispielagenten, der T-Shirts verkauft. Sie können es verwenden, um Rogue in Aktion zu sehen.
Beispielabhängigkeiten installieren:
Wenn Sie UV verwenden:
oder, wenn Sie pip verwenden:
pip set up -e .(examples)
(a) Starten Sie den Beispiel-Agent-Server in einem separaten Terminal:
Wenn Sie UV verwenden:
uv run examples/tshirt_store_agent
Wenn nicht:
python examples/tshirt_store_agent
Dadurch wird der Agent unter http://localhost:10001 gestartet.
(b) Konfigurieren Schurke in der Benutzeroberfläche, um auf den Beispielagenten zu verweisen:
- Agent-URL: http://localhost:10001
- Authentifizierung: keine Authentifizierung
(c) Führen Sie die Auswertung durch und beobachten Sie Schurke Testen Sie die Richtlinien des T-Shirt-Agenten!
Sie können entweder den TUI-Modus (uvx rogue-ai) oder den Internet-UI-Modus (uvx rogue-ai ui) verwenden.
Wo Rogue passt: Praktische Anwendungsfälle
- Sicherheit und Compliance-Härtung: Validieren Sie den Umgang mit PII/PHI, das Ablehnungsverhalten, die Verhinderung von Geheimlecks und die Richtlinien für regulierte Domänen mit transkriptverankerten Beweisen.
- E-Commerce- und Help-Agenten: Erzwingen Sie OTP-gesteuerte Rabatte, Rückerstattungsregeln, SLA-bewusste Eskalation und korrekte Software-Nutzung (Auftragssuche, Ticketerstellung) unter kontroversen Bedingungen und Fehlerbedingungen.
- Entwickler/DevOps-Agenten: Bewerten Sie Code-Mod- und CLI-Copiloten hinsichtlich der Beschränkung des Arbeitsbereichs, der Rollback-Semantik, des Ratenbegrenzungs-/Backoff-Verhaltens und der Verhinderung unsicherer Befehle.
- Multiagentensysteme: Überprüfen Sie Planer- und Ausführungsverträge, Fähigkeitsverhandlungen und Schemakonformität gegenüber A2A. Bewerten Sie die Interoperabilität zwischen heterogenen Frameworks.
- Regressions- und Driftüberwachung: Nächtliche Suiten gegen neue Modellversionen oder zeitnahe Änderungen; Erkennen Sie Verhaltensabweichungen und setzen Sie vor der Veröffentlichung richtlinienkritische Erfolgskriterien durch.
Was genau ist Rogue – und warum sollten sich Agent-Entwicklerteams darum kümmern?
Schurke ist ein Finish-to-Finish-Testframework zur Bewertung der Leistung, Compliance und Zuverlässigkeit von KI-Agenten. Schurke fasst Geschäftskontext und Risiko in strukturierten Checks mit klaren Zielen, Taktiken und Erfolgskriterien zusammen. Der EvaluatorAgent führt protokollkorrekte Konversationen im schnellen Single-Flip- oder Deep-Multi-Flip-Gegnermodus aus. Bringen Sie Ihr eigenes Modell mit oder lassen Sie es Schurke Nutzen Sie die maßgeschneiderten SLM-Juroren von Qualifire, um die Checks durchzuführen. Streaming-Beobachtbarkeit und deterministische Artefakte: Reside-Transkripte, Intestine/Schlecht-Urteile, Begründungen im Zusammenhang mit Transkriptspannen, Timing und Modell-/Versionsherkunft.
Unter der Haube: Wie Rogue aufgebaut ist
Rogue arbeitet auf einer Shopper-Server-Architektur:
- Rogue-Server: Enthält die Kernauswertungslogik
- Shopper-Schnittstellen: Mehrere Schnittstellen, die eine Verbindung zum Server herstellen:
- TUI (Terminal-Benutzeroberfläche): Moderne Terminal-Schnittstelle, erstellt mit Go und Bubble Tea
- Internet-Benutzeroberfläche: Gradio-basierte Weboberfläche
- CLI: Befehlszeilenschnittstelle für automatisierte Auswertung und CI/CD
Diese Architektur ermöglicht versatile Bereitstellungs- und Nutzungsmuster, bei denen der Server unabhängig ausgeführt werden kann und mehrere Purchasers gleichzeitig eine Verbindung zu ihm herstellen können.
Zusammenfassung
Schurke hilft Entwicklerteams, das Agentenverhalten so zu testen, wie es tatsächlich in der Produktion abläuft. Es wandelt geschriebene Richtlinien in konkrete Szenarien um, führt diese Szenarien über A2A durch und zeichnet auf, was passiert ist, mit Transkripten, die Sie überprüfen können. Das Ergebnis ist ein klares, wiederholbares Sign, das Sie in CI/CD verwenden können, um Richtlinienverstöße und Regressionen zu erkennen, bevor sie versendet werden.
Vielen Dank an das Qualifire-Workforce für die Gedankenführung/Ressourcen für diesen Artikel. Das Qualifire-Workforce hat diesen Inhalt/Artikel unterstützt.
Asif Razzaq ist CEO von Marktechpost Media Inc.. Als visionärer Unternehmer und Ingenieur setzt sich Asif dafür ein, das Potenzial der künstlichen Intelligenz für das soziale Wohl zu nutzen. Sein jüngstes Unterfangen ist die Einführung einer Medienplattform für künstliche Intelligenz, Marktechpost, die sich durch eine ausführliche Berichterstattung über maschinelles Lernen und Deep-Studying-Nachrichten auszeichnet, die sowohl technisch fundiert als auch für ein breites Publikum leicht verständlich ist. Die Plattform verfügt über mehr als 2 Millionen monatliche Aufrufe, was ihre Beliebtheit beim Publikum verdeutlicht.
