Qualifire AI Open-Sources Rogue: Ein Finish-to-Finish-Framework für Agenten-KI-Checks, das zur Bewertung der Leistung, Compliance und Zuverlässigkeit von KI-Agenten entwickelt wurde

Agentensysteme sind stochastisch, kontextabhängig und richtliniengebunden. Herkömmliche Qualitätssicherung – Unit-Checks, statische Eingabeaufforderungen oder skalare „LLM-as-a-Decide“-Bewertungen – deckt Multi-Flip-Schwachstellen nicht auf und liefert schwache Prüfpfade. Entwicklerteams benötigen protokollgenaue Gespräche, explizite Richtlinienprüfungen und maschinenlesbare Beweise, die Veröffentlichungen zuverlässig durchführen können.

Qualifire AI ist Open-Supply Schurkeein Python-Framework, das KI-Agenten über Agent-to-Agent (A2A) bewertet. Protokoll. Rogue wandelt Geschäftsrichtlinien in ausführbare Szenarien um, steuert Multi-Flip-Interaktionen mit einem Zielagenten und gibt deterministische Berichte aus, die für CI/CD- und Compliance-Überprüfungen geeignet sind.

Schnellstart

Voraussetzungen

uvx – Wenn nicht installiert, folgen Sie den Anweisungen UV-Installationsanleitung
Python 3.10+
Ein API-Schlüssel für einen LLM-Anbieter (z. B. OpenAI, Google, Anthropic).

Set up

Choice 1: Schnellinstallation (empfohlen)

Nutzen Sie unser automatisiertes Installationsskript, um schnell loszulegen:

# TUI
uvx rogue-ai
# Internet UI
uvx rogue-ai ui
# CLI / CI/CD
uvx rogue-ai cli

Choice 2: Manuelle Set up

(a) Klonen Sie das Repository:

git clone https://github.com/qualifire-dev/rogue.git
cd rogue

(b) Abhängigkeiten installieren:

Wenn Sie UV verwenden:

Oder, wenn Sie pip verwenden:

(c) OPTIONAL: Richten Sie Ihre Umgebungsvariablen ein: Erstellen Sie eine .env-Datei im Stammverzeichnis und fügen Sie Ihre API-Schlüssel hinzu. Rogue verwendet LiteLLM, sodass Sie Schlüssel für verschiedene Anbieter festlegen können.

OPENAI_API_KEY="sk-..."
ANTHROPIC_API_KEY="sk-..."
GOOGLE_API_KEY="..."

Laufender Schurke

Rogue operiert auf einem Shopper-Server Architektur, bei der die Kernauswertungslogik auf einem Backend-Server ausgeführt wird und verschiedene Purchasers über unterschiedliche Schnittstellen eine Verbindung zu ihm herstellen.

Standardverhalten

Wenn Sie uvx rogue-ai ohne Angabe eines Modus ausführen, geschieht Folgendes:

Startet den Rogue-Server im Hintergrund
Startet den TUI-Shopper (Terminal Person Interface).

Verfügbare Modi

Normal (Server + TUI): uvx rogue-ai – Startet Server im Hintergrund + TUI-Shopper
Server: uvx rogue-ai server – Führt nur den Backend-Server aus
TUI: uvx rogue-ai tui – Führt nur den TUI-Shopper aus (erfordert den laufenden Server)
Internet-Benutzeroberfläche: uvx rogue-ai ui – Führt nur den Gradio-Webinterface-Shopper aus (erfordert den Betrieb eines Servers)
CLI: uvx rogue-ai cli – Führt eine nicht interaktive Befehlszeilenauswertung durch (erfordert den laufenden Server, ideally suited für CI/CD)

Modusargumente

Servermodus

uvx rogue-ai server (OPTIONS)

Optionen:

–host HOST – Host, auf dem der Server ausgeführt wird (Normal: 127.0.0.1 oder HOST-Umgebungsvariable)
–port PORT – Port, auf dem der Server ausgeführt wird (Normal: 8000 oder PORT env var)
–debug – Debug-Protokollierung aktivieren

TUI-Modus

uvx rogue-ai tui (OPTIONS)
Internet UI Mode
uvx rogue-ai ui (OPTIONS)

Optionen:

–rogue-server-url URL – Rogue-Server-URL (Normal: http://localhost:8000)
–port PORT – Port, auf dem die Benutzeroberfläche ausgeführt werden soll
–workdir WORKDIR – Arbeitsverzeichnis (Normal: ./.rogue)
–debug – Debug-Protokollierung aktivieren

Beispiel: Testen des T-Shirt Retailer Agent

Dieses Repository enthält einen einfachen Beispielagenten, der T-Shirts verkauft. Sie können es verwenden, um Rogue in Aktion zu sehen.

Beispielabhängigkeiten installieren:

Wenn Sie UV verwenden:

oder, wenn Sie pip verwenden:

pip set up -e .(examples)

(a) Starten Sie den Beispiel-Agent-Server in einem separaten Terminal:

Wenn Sie UV verwenden:

uv run examples/tshirt_store_agent

Wenn nicht:

python examples/tshirt_store_agent

Dadurch wird der Agent unter http://localhost:10001 gestartet.

(b) Konfigurieren Schurke in der Benutzeroberfläche, um auf den Beispielagenten zu verweisen:

Agent-URL: http://localhost:10001
Authentifizierung: keine Authentifizierung

(c) Führen Sie die Auswertung durch und beobachten Sie Schurke Testen Sie die Richtlinien des T-Shirt-Agenten!

Sie können entweder den TUI-Modus (uvx rogue-ai) oder den Internet-UI-Modus (uvx rogue-ai ui) verwenden.

Wo Rogue passt: Praktische Anwendungsfälle

Sicherheit und Compliance-Härtung: Validieren Sie den Umgang mit PII/PHI, das Ablehnungsverhalten, die Verhinderung von Geheimlecks und die Richtlinien für regulierte Domänen mit transkriptverankerten Beweisen.
E-Commerce- und Help-Agenten: Erzwingen Sie OTP-gesteuerte Rabatte, Rückerstattungsregeln, SLA-bewusste Eskalation und korrekte Software-Nutzung (Auftragssuche, Ticketerstellung) unter kontroversen Bedingungen und Fehlerbedingungen.
Entwickler/DevOps-Agenten: Bewerten Sie Code-Mod- und CLI-Copiloten hinsichtlich der Beschränkung des Arbeitsbereichs, der Rollback-Semantik, des Ratenbegrenzungs-/Backoff-Verhaltens und der Verhinderung unsicherer Befehle.
Multiagentensysteme: Überprüfen Sie Planer- und Ausführungsverträge, Fähigkeitsverhandlungen und Schemakonformität gegenüber A2A. Bewerten Sie die Interoperabilität zwischen heterogenen Frameworks.
Regressions- und Driftüberwachung: Nächtliche Suiten gegen neue Modellversionen oder zeitnahe Änderungen; Erkennen Sie Verhaltensabweichungen und setzen Sie vor der Veröffentlichung richtlinienkritische Erfolgskriterien durch.

Was genau ist Rogue – und warum sollten sich Agent-Entwicklerteams darum kümmern?

Schurke ist ein Finish-to-Finish-Testframework zur Bewertung der Leistung, Compliance und Zuverlässigkeit von KI-Agenten. Schurke fasst Geschäftskontext und Risiko in strukturierten Checks mit klaren Zielen, Taktiken und Erfolgskriterien zusammen. Der EvaluatorAgent führt protokollkorrekte Konversationen im schnellen Single-Flip- oder Deep-Multi-Flip-Gegnermodus aus. Bringen Sie Ihr eigenes Modell mit oder lassen Sie es Schurke Nutzen Sie die maßgeschneiderten SLM-Juroren von Qualifire, um die Checks durchzuführen. Streaming-Beobachtbarkeit und deterministische Artefakte: Reside-Transkripte, Intestine/Schlecht-Urteile, Begründungen im Zusammenhang mit Transkriptspannen, Timing und Modell-/Versionsherkunft.

Unter der Haube: Wie Rogue aufgebaut ist

Rogue arbeitet auf einer Shopper-Server-Architektur:

Rogue-Server: Enthält die Kernauswertungslogik
Shopper-Schnittstellen: Mehrere Schnittstellen, die eine Verbindung zum Server herstellen:
- TUI (Terminal-Benutzeroberfläche): Moderne Terminal-Schnittstelle, erstellt mit Go und Bubble Tea
- Internet-Benutzeroberfläche: Gradio-basierte Weboberfläche
- CLI: Befehlszeilenschnittstelle für automatisierte Auswertung und CI/CD

Diese Architektur ermöglicht versatile Bereitstellungs- und Nutzungsmuster, bei denen der Server unabhängig ausgeführt werden kann und mehrere Purchasers gleichzeitig eine Verbindung zu ihm herstellen können.

Zusammenfassung

Schurke hilft Entwicklerteams, das Agentenverhalten so zu testen, wie es tatsächlich in der Produktion abläuft. Es wandelt geschriebene Richtlinien in konkrete Szenarien um, führt diese Szenarien über A2A durch und zeichnet auf, was passiert ist, mit Transkripten, die Sie überprüfen können. Das Ergebnis ist ein klares, wiederholbares Sign, das Sie in CI/CD verwenden können, um Richtlinienverstöße und Regressionen zu erkennen, bevor sie versendet werden.

Vielen Dank an das Qualifire-Workforce für die Gedankenführung/Ressourcen für diesen Artikel. Das Qualifire-Workforce hat diesen Inhalt/Artikel unterstützt.

Asif Razzaq ist CEO von Marktechpost Media Inc.. Als visionärer Unternehmer und Ingenieur setzt sich Asif dafür ein, das Potenzial der künstlichen Intelligenz für das soziale Wohl zu nutzen. Sein jüngstes Unterfangen ist die Einführung einer Medienplattform für künstliche Intelligenz, Marktechpost, die sich durch eine ausführliche Berichterstattung über maschinelles Lernen und Deep-Studying-Nachrichten auszeichnet, die sowohl technisch fundiert als auch für ein breites Publikum leicht verständlich ist. Die Plattform verfügt über mehr als 2 Millionen monatliche Aufrufe, was ihre Beliebtheit beim Publikum verdeutlicht.

🙌 Folgen Sie MARKTECHPOST: Fügen Sie uns als bevorzugte Quelle bei Google hinzu.

Qualifire AI Open-Sources Rogue: Ein Finish-to-Finish-Framework für Agenten-KI-Checks, das zur Bewertung der Leistung, Compliance und Zuverlässigkeit von KI-Agenten entwickelt wurde

Schnellstart

Voraussetzungen

Set up

Choice 1: Schnellinstallation (empfohlen)

Choice 2: Manuelle Set up

Laufender Schurke

Standardverhalten

Verfügbare Modi

Modusargumente

Servermodus

Wo Rogue passt: Praktische Anwendungsfälle

Was genau ist Rogue – und warum sollten sich Agent-Entwicklerteams darum kümmern?

Unter der Haube: Wie Rogue aufgebaut ist

Zusammenfassung

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

5 nützliche Python-Skripte für automatisierte Datenqualitätsprüfungen

Entwerfen von Daten- und KI-Systemen, die in der Produktion bestehen

Was sind elektronische Patientenakten (EHR)?

Nous Analysis veröffentlicht „Hermes Agent“, um KI-Vergesslichkeit mit mehrstufigem Speicher und dedizierter Unterstützung für den Distant-Terminalzugriff zu beheben

About

Categories

Tags

Recent Post

5 nützliche Python-Skripte für automatisierte Datenqualitätsprüfungen

Entwerfen von Daten- und KI-Systemen, die in der Produktion bestehen

Schnellstart

Voraussetzungen

Set up

Choice 1: Schnellinstallation (empfohlen)

Choice 2: Manuelle Set up

Laufender Schurke

Standardverhalten

Verfügbare Modi

Modusargumente

Servermodus

Wo Rogue passt: Praktische Anwendungsfälle

Was genau ist Rogue – und warum sollten sich Agent-Entwicklerteams darum kümmern?

Unter der Haube: Wie Rogue aufgebaut ist

Zusammenfassung

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt