Innerhalb von AB-MCTS: Breiter oder tiefer

Das Rückgrat von Marlin ist AB-MCTS oder Adaptive Branching Monte Carlo Tree Search. Es stammt aus früheren Forschungen des Sakana.Breiter oder tiefer? Skalierung der LLM-Inferenzzeitberechnung mit adaptiver Verzweigungsbaumsuche.“

AB-MCTS behandelt Argumentation als Baumsuchproblem. Bei jedem Schritt trifft der Algorithmus eine Entscheidung. Es kann noch weiter gehen, indem eine neue Kandidatenantwort generiert wird. Oder es kann tiefer gehen, indem eine vielversprechende bestehende Antwort verfeinert wird. Die standardmäßige wiederholte Probenahme geht parallel nur breiter und hofft dann, dass eine Antwort richtig ist.

Eine Multi-LLM-Variante fügt eine zweite Wahl hinzu. Es kann einen Schritt vollständig an ein anderes Modell weiterleiten. Bei den von Sakana gemeldeten ARC-AGI-2-Experimenten struggle diese Zusammenarbeit hilfreich. Durch die Kombination von o4-mini, Gemini 2.5 Professional und DeepSeek-R1 wurden etwa 27,5 % der Aufgaben gelöst. Allein das o4-mini-Modell löste etwa 23 %. Marlin wendet die gleiche adaptive Suche auf die Langzeitforschung an.

Die zweite Schlüsselkomponente für Marlin ist die Workflow-Automatisierung von Sakanas AI Scientist-Projekt. Dieses Projekt demonstrierte autonome wissenschaftliche Entdeckungen und wurde in Nature veröffentlicht.

Interaktive Demo: Das einbettbare Widget (marlin-abmcts-demo.html) zeigt die Entscheidung „umfassender oder tiefer“ stay. Drücken Sie „Ausführen“ und beobachten Sie, wie der Baum wächst. Grünere Knoten weisen höhere Bewertungen auf und der beste Pfad wird hervorgehoben. Schalten Sie „Multi-LLM“ um, um Schritte anzuzeigen, die über verschiedene Modelle hinweg weitergeleitet werden.


AB-MCTS: „Weiter oder tiefer?“ — interaktive Suche

Eine vereinfachte Darstellung der Adaptive Branching Monte Carlo Tree Search von Sakana AI. Bei jedem Schritt wählt die Politik eine Erweiterung (neuer Kandidat) oder eine Vertiefung (Verfeinerung einer vielversprechenden Linie).

Suchstatus

Verwendetes Price range0 / 24

Knoten (Kandidaten)1

Bestes Ergebnis0,00

Breiter / tiefer0 / 0

niedrige Punktzahl
Highscore
bester Weg

Wie Marlin im Vergleich abschneidet

Beim Marlin geht es um die Tiefe, nicht um die Geschwindigkeit. Herkömmliche Deep-Analysis-Instruments antworten innerhalb von Minuten bis mehreren zehn Minuten. Marlin verbringt bewusst Stunden damit, die Ausgabequalität zu steigern. Bei den nachstehenden Laufzeiten der Teilnehmer handelt es sich um ungefähre und gemeldete Angaben, nicht um offizielle Zahlen.

Werkzeug Typische Laufzeit Ausgabe Hauptbenutzer
Sakana-Marlin Bis zu ~8 Stunden Bericht (Dutzende bis ~100 Seiten) + Folien Unternehmensstrategieteams
OpenAI Deep Analysis ~Minuten bis zehn Minuten Zitierter Textbericht Allgemeine und professionelle Benutzer
Ratlosigkeit, tiefe Forschung ~Ein paar Minuten Zitierte Textantwort Allgemeine Benutzer
Google Gemini Deep Analysis ~Minuten Zitierter Textbericht Allgemeine Benutzer und Arbeitsbereichsbenutzer

Der Kompromiss ist explizit. Sie warten länger und zahlen professional Lauf. Im Gegenzug erhalten Sie eine eingehendere Hypothesenprüfung und ein fertiges Ergebnis. Sie können einen Lauf jederzeit abbrechen, es werden jedoch weiterhin Credit verbraucht.

Preise

Sakana bietet Pay-as-you-go sowie die Stufen Professional, Workforce und Enterprise an. Die nutzungsbasierte Bezahlung beginnt bei 100 Credit professional Lauf und kostet 98 Yen professional Credit score. Professional kostet ¥ 150.000 professional Monat und beinhaltet 2.000 Credit. Das Workforce kostet ¥ 400.000 professional Monat und beinhaltet 6.000 Credit. Die Preise für Unternehmen sind individuell, mit dediziertem Help.

Anwendungsfälle mit Beispielen

Marlin eignet sich für anspruchsvolle Fragen, bei denen die Forschung den Engpass darstellt. Hier finden Sie konkrete Beispiele aus den Zielaufgaben.

  • Markteintritt: „Bewerten Sie Japans Markt für Stablecoins und tokenisierte Zahlungen nach regulatorischen Änderungen.“ Marlin bildet Treiber, Risiken und strukturierte Optionen in einem Bericht ab.
  • Risikoanalyse: „Modellauflösungsszenarien für eine Blockade der Straße von Hormus.“ Es vergleicht Hypothesen und nicht nur Zusammenfassungen, bevor es Schlussfolgerungen zieht.
  • Wettbewerbsanalyse: Stellen Sie drei Konkurrenten vor und bewerten Sie unsere Positionierungslücken. Es gibt Folien zurück, die für eine Strategieüberprüfung bereit sind.

Jedes Beispiel passt zu einer Eingabeaufforderung und einer unbeaufsichtigten Ausführung. Ein Mensch überprüft immer noch die zitierte Ausgabe, bevor er eine Entscheidung trifft.

Probieren Sie die Engine selbst aus: TreeQuest

Sie können Marlin nicht selbst hosten. Aber Sie können den Kernalgorithmus noch heute ausführen. Sakana hat AB-MCTS als Open-Supply-Lösung TreeQuest unter der Apache 2.0-Lizenz bereitgestellt. Installieren Sie es, definieren Sie eine Generierungsfunktion und führen Sie dann ein festes Suchbudget aus.

import random
import treequest as tq

# Every node holds a user-defined state; rating have to be normalized to (0, 1).
def generate(parent_state):
    if parent_state is None:               # None means develop from the foundation
        new_state = "Preliminary draft"
    else:
        new_state = f"Refined: {parent_state}"
    rating = random.random()                # swap this for an LLM-based rating
    return new_state, rating

algo = tq.ABMCTSA()                         # Adaptive Branching MCTS (variant A)
search_tree = algo.init_tree()

for _ in vary(10):                         # era finances of 10
    search_tree = algo.step(search_tree, {"generate": generate})

best_state, best_score = tq.top_k(search_tree, algo, okay=1)(0)
print("BEST:", best_state, spherical(best_score, 3))

Tauschen Sie die zufällige Punktzahl gegen einen LLM-Richter aus, um das tatsächliche Muster zu reproduzieren. TreeQuest bietet auch Multi-LLM-Suche und Checkpointing für lange Laufzeiten. Checkpointing ist wichtig, da lange Sitzungen auf halbem Weg zu API-Fehlern führen können.

Stärken und Schwächen

Stärken

  • Von Experten begutachtete Stiftungen: AB-MCTS bei NeurIPS und AI Scientist in Nature.
  • Fertige Leistungen, einschließlich Referenzen, Anhänge und Folien.
  • Adaptive Computing konzentriert sich auf die vielversprechendsten Zweige.
  • Mit dem Open-Supply-Kern (TreeQuest) können KI-Forscher die Methode untersuchen.

Schwächen

  • Lange Laufzeiten verlangsamen die Iteration im Vergleich zu winzigen Forschungstools.
  • Automatisierte Berichte können schwer erkennbare Fehler enthalten, die einer menschlichen Überprüfung bedürfen.
  • Preisgestaltung und Design richten sich an Unternehmen, nicht an einzelne Entwickler.
  • Marlin selbst ist geschlossen; Nur der zugrunde liegende Algorithmus ist offen.

Wichtige Erkenntnisse

  • Sakana Marlin führt professional Aufgabe bis zu acht Stunden lang autonome Forschung durch.
  • Bei einem Durchlauf wird ein Bericht mit Dutzenden Seiten und Folien erstellt.
  • Es baut auf AB-MCTS (NeurIPS 2025 Highlight) und AI Scientist-Workflows (Nature) auf.
  • Der Eintrittspreis ist nutzungsabhängig: 100 Credit professional Lauf zu ¥98 professional Credit score.
  • Es richtet sich an Finanz-, Unternehmensstrategie-, Beratungs- und Suppose-Tank-Groups.

Quellen

  • Sakana AI – Sakana Marlin-Veröffentlichung: https://sakana.ai/marlin-release/
  • Sakana AI – Sakana Marlin-Produktseite: https://sakana.ai/marlin/
  • Sakana AI – AB-MCTS-Forschung und TreeQuest: https://sakana.ai/ab-mcts/
  • SakanaAI/treequest (GitHub, Apache 2.0): https://github.com/SakanaAI/treequest


Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert