Sakana AI vermarktet AB-MCTS in Sakana Marlin, einem Enterprise Agent, der bis zu 100-seitige Forschungsberichte mit Folien erstellt

Innerhalb von AB-MCTS: Breiter oder tiefer

Das Rückgrat von Marlin ist AB-MCTS oder Adaptive Branching Monte Carlo Tree Search. Es stammt aus früheren Forschungen des Sakana.Breiter oder tiefer? Skalierung der LLM-Inferenzzeitberechnung mit adaptiver Verzweigungsbaumsuche.“

AB-MCTS behandelt Argumentation als Baumsuchproblem. Bei jedem Schritt trifft der Algorithmus eine Entscheidung. Es kann noch weiter gehen, indem eine neue Kandidatenantwort generiert wird. Oder es kann tiefer gehen, indem eine vielversprechende bestehende Antwort verfeinert wird. Die standardmäßige wiederholte Probenahme geht parallel nur breiter und hofft dann, dass eine Antwort richtig ist.

Eine Multi-LLM-Variante fügt eine zweite Wahl hinzu. Es kann einen Schritt vollständig an ein anderes Modell weiterleiten. Bei den von Sakana gemeldeten ARC-AGI-2-Experimenten struggle diese Zusammenarbeit hilfreich. Durch die Kombination von o4-mini, Gemini 2.5 Professional und DeepSeek-R1 wurden etwa 27,5 % der Aufgaben gelöst. Allein das o4-mini-Modell löste etwa 23 %. Marlin wendet die gleiche adaptive Suche auf die Langzeitforschung an.

Die zweite Schlüsselkomponente für Marlin ist die Workflow-Automatisierung von Sakanas AI Scientist-Projekt. Dieses Projekt demonstrierte autonome wissenschaftliche Entdeckungen und wurde in Nature veröffentlicht.

Interaktive Demo: Das einbettbare Widget (marlin-abmcts-demo.html) zeigt die Entscheidung „umfassender oder tiefer“ stay. Drücken Sie „Ausführen“ und beobachten Sie, wie der Baum wächst. Grünere Knoten weisen höhere Bewertungen auf und der beste Pfad wird hervorgehoben. Schalten Sie „Multi-LLM“ um, um Schritte anzuzeigen, die über verschiedene Modelle hinweg weitergeleitet werden.

AB-MCTS: „Weiter oder tiefer?“ — interaktive Suche

Eine vereinfachte Darstellung der Adaptive Branching Monte Carlo Tree Search von Sakana AI. Bei jedem Schritt wählt die Politik eine Erweiterung (neuer Kandidat) oder eine Vertiefung (Verfeinerung einer vielversprechenden Linie).

Suchstatus

Verwendetes Price range0 / 24

Knoten (Kandidaten)1

Bestes Ergebnis0,00

Breiter / tiefer0 / 0

niedrige Punktzahl
Highscore
bester Weg

Wie Marlin im Vergleich abschneidet

Beim Marlin geht es um die Tiefe, nicht um die Geschwindigkeit. Herkömmliche Deep-Analysis-Instruments antworten innerhalb von Minuten bis mehreren zehn Minuten. Marlin verbringt bewusst Stunden damit, die Ausgabequalität zu steigern. Bei den nachstehenden Laufzeiten der Teilnehmer handelt es sich um ungefähre und gemeldete Angaben, nicht um offizielle Zahlen.

Werkzeug	Typische Laufzeit	Ausgabe	Hauptbenutzer
Sakana-Marlin	Bis zu ~8 Stunden	Bericht (Dutzende bis ~100 Seiten) + Folien	Unternehmensstrategieteams
OpenAI Deep Analysis	~Minuten bis zehn Minuten	Zitierter Textbericht	Allgemeine und professionelle Benutzer
Ratlosigkeit, tiefe Forschung	~Ein paar Minuten	Zitierte Textantwort	Allgemeine Benutzer
Google Gemini Deep Analysis	~Minuten	Zitierter Textbericht	Allgemeine Benutzer und Arbeitsbereichsbenutzer

Der Kompromiss ist explizit. Sie warten länger und zahlen professional Lauf. Im Gegenzug erhalten Sie eine eingehendere Hypothesenprüfung und ein fertiges Ergebnis. Sie können einen Lauf jederzeit abbrechen, es werden jedoch weiterhin Credit verbraucht.

Preise

Sakana bietet Pay-as-you-go sowie die Stufen Professional, Workforce und Enterprise an. Die nutzungsbasierte Bezahlung beginnt bei 100 Credit professional Lauf und kostet 98 Yen professional Credit score. Professional kostet ¥ 150.000 professional Monat und beinhaltet 2.000 Credit. Das Workforce kostet ¥ 400.000 professional Monat und beinhaltet 6.000 Credit. Die Preise für Unternehmen sind individuell, mit dediziertem Help.

Anwendungsfälle mit Beispielen

Marlin eignet sich für anspruchsvolle Fragen, bei denen die Forschung den Engpass darstellt. Hier finden Sie konkrete Beispiele aus den Zielaufgaben.

Markteintritt: „Bewerten Sie Japans Markt für Stablecoins und tokenisierte Zahlungen nach regulatorischen Änderungen.“ Marlin bildet Treiber, Risiken und strukturierte Optionen in einem Bericht ab.
Risikoanalyse: „Modellauflösungsszenarien für eine Blockade der Straße von Hormus.“ Es vergleicht Hypothesen und nicht nur Zusammenfassungen, bevor es Schlussfolgerungen zieht.
Wettbewerbsanalyse: Stellen Sie drei Konkurrenten vor und bewerten Sie unsere Positionierungslücken. Es gibt Folien zurück, die für eine Strategieüberprüfung bereit sind.

Jedes Beispiel passt zu einer Eingabeaufforderung und einer unbeaufsichtigten Ausführung. Ein Mensch überprüft immer noch die zitierte Ausgabe, bevor er eine Entscheidung trifft.

Probieren Sie die Engine selbst aus: TreeQuest

Sie können Marlin nicht selbst hosten. Aber Sie können den Kernalgorithmus noch heute ausführen. Sakana hat AB-MCTS als Open-Supply-Lösung TreeQuest unter der Apache 2.0-Lizenz bereitgestellt. Installieren Sie es, definieren Sie eine Generierungsfunktion und führen Sie dann ein festes Suchbudget aus.

import random
import treequest as tq

# Every node holds a user-defined state; rating have to be normalized to (0, 1).
def generate(parent_state):
    if parent_state is None:               # None means develop from the foundation
        new_state = "Preliminary draft"
    else:
        new_state = f"Refined: {parent_state}"
    rating = random.random()                # swap this for an LLM-based rating
    return new_state, rating

algo = tq.ABMCTSA()                         # Adaptive Branching MCTS (variant A)
search_tree = algo.init_tree()

for _ in vary(10):                         # era finances of 10
    search_tree = algo.step(search_tree, {"generate": generate})

best_state, best_score = tq.top_k(search_tree, algo, okay=1)(0)
print("BEST:", best_state, spherical(best_score, 3))

Tauschen Sie die zufällige Punktzahl gegen einen LLM-Richter aus, um das tatsächliche Muster zu reproduzieren. TreeQuest bietet auch Multi-LLM-Suche und Checkpointing für lange Laufzeiten. Checkpointing ist wichtig, da lange Sitzungen auf halbem Weg zu API-Fehlern führen können.

Stärken und Schwächen

Stärken

Von Experten begutachtete Stiftungen: AB-MCTS bei NeurIPS und AI Scientist in Nature.
Fertige Leistungen, einschließlich Referenzen, Anhänge und Folien.
Adaptive Computing konzentriert sich auf die vielversprechendsten Zweige.
Mit dem Open-Supply-Kern (TreeQuest) können KI-Forscher die Methode untersuchen.

Schwächen

Lange Laufzeiten verlangsamen die Iteration im Vergleich zu winzigen Forschungstools.
Automatisierte Berichte können schwer erkennbare Fehler enthalten, die einer menschlichen Überprüfung bedürfen.
Preisgestaltung und Design richten sich an Unternehmen, nicht an einzelne Entwickler.
Marlin selbst ist geschlossen; Nur der zugrunde liegende Algorithmus ist offen.

Wichtige Erkenntnisse

Sakana Marlin führt professional Aufgabe bis zu acht Stunden lang autonome Forschung durch.
Bei einem Durchlauf wird ein Bericht mit Dutzenden Seiten und Folien erstellt.
Es baut auf AB-MCTS (NeurIPS 2025 Highlight) und AI Scientist-Workflows (Nature) auf.
Der Eintrittspreis ist nutzungsabhängig: 100 Credit professional Lauf zu ¥98 professional Credit score.
Es richtet sich an Finanz-, Unternehmensstrategie-, Beratungs- und Suppose-Tank-Groups.

Quellen

Sakana AI – Sakana Marlin-Veröffentlichung: https://sakana.ai/marlin-release/
Sakana AI – Sakana Marlin-Produktseite: https://sakana.ai/marlin/
Sakana AI – AB-MCTS-Forschung und TreeQuest: https://sakana.ai/ab-mcts/
SakanaAI/treequest (GitHub, Apache 2.0): https://github.com/SakanaAI/treequest

Sakana AI vermarktet AB-MCTS in Sakana Marlin, einem Enterprise Agent, der bis zu 100-seitige Forschungsberichte mit Folien erstellt

Innerhalb von AB-MCTS: Breiter oder tiefer

AB-MCTS: „Weiter oder tiefer?“ — interaktive Suche

Suchstatus

Wie Marlin im Vergleich abschneidet

Preise

Anwendungsfälle mit Beispielen

Probieren Sie die Engine selbst aus: TreeQuest

Stärken und Schwächen

Stärken

Schwächen

Wichtige Erkenntnisse

Quellen

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Wie man sich effektiv an Claude Code anpasst

Sakana AI vermarktet AB-MCTS in Sakana Marlin, einem Enterprise Agent, der bis zu 100-seitige Forschungsberichte mit Folien erstellt

US-Regierung tötet Anthropics Flaggschiffmodell |

MIT-Associate gewinnen Stipendien der Hertz Basis 2026 | MIT-Nachrichten

About

Categories

Tags

Recent Post

Wie man sich effektiv an Claude Code anpasst

Sakana AI vermarktet AB-MCTS in Sakana Marlin, einem Enterprise Agent, der bis zu 100-seitige Forschungsberichte mit Folien erstellt

Innerhalb von AB-MCTS: Breiter oder tiefer

AB-MCTS: „Weiter oder tiefer?“ — interaktive Suche

Suchstatus

Wie Marlin im Vergleich abschneidet

Preise

Anwendungsfälle mit Beispielen

Probieren Sie die Engine selbst aus: TreeQuest

Stärken und Schwächen

Stärken

Schwächen

Wichtige Erkenntnisse

Quellen

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt