Objektdetektoren mit offenem Vokabular beantworten Textabfragen mit Kästchen. Bei der Fernerkundung sinkt die Nullschussleistung, weil die Klassen feinkörnig sind und der visuelle Kontext ungewöhnlich ist. Das Google-Forschungsteam schlägt vor FLAMMEeine einstufige aktive Lernstrategie, die auf einem starken Detektor für offenes Vokabular basiert und einen kleinen Verfeinerer hinzufügt, den Sie nahezu in Echtzeit auf einer CPU trainieren können. Das Basismodell generiert Vorschläge mit hohem Rückruf, der Refiner filtert Fehlalarme mit einigen gezielten Labels und Sie vermeiden eine vollständige Feinabstimmung des Modells. Es wird berichtet Stand der Technik Genauigkeit auf DOTA Und DIOR mit 30 SchüsseUnd Minutenskala Anpassung professional Label auf einer CPU.

https://arxiv.org/pdf/2510.17670v1

Problemstellung

Offene Vokabulardetektoren wie OWL ViT v2 werden auf Bildtextpaare im Webmaßstab trainiert. Sie lassen sich intestine auf natürliche Bilder übertragen, haben jedoch Probleme, wenn die Kategorien subtil sind, beispielsweise Schornstein oder Lagertank, oder wenn die Abbildungsgeometrie unterschiedlich ist, beispielsweise Nadir-Luftkacheln mit gedrehten Objekten und kleinen Maßstäben. Die Präzision nimmt ab, da sich die Texteinbettung und die visuelle Einbettung bei ähnlichen Kategorien überschneiden. Ein praktisches System benötigt die Breite offener Vokabularmodelle und die Präzision eines Spezialisten vor Ort, ohne stundenlange GPU-Feinabstimmung oder Tausende neuer Etiketten.

Methode und Design in kompakter Type

FLAME ist ein kaskadiert Pipeline. Schritt eins: Führen Sie einen Zero-Shot-Detektor für offenes Vokabular aus, um viele Kandidatenfelder für eine Textabfrage zu erzeugen, zum Beispiel „Schornstein“. Schritt zwei: Stellen Sie jeden Kandidaten mit visuellen Merkmalen und seiner Ähnlichkeit zum Textual content dar. Schritt drei, Randproben abrufen die in der Nähe der Entscheidungsgrenze liegen, indem Sie eine niedrigdimensionale Projektion mit PCA durchführen, dann eine Dichteschätzung durchführen und dann das unsichere Band auswählen. Schritt vier, Cluster Wählen Sie dieses Band aus und wählen Sie aus Gründen der Vielfalt einen Artikel professional Cluster aus. Schritt fünf: Erstellen Sie ein Benutzeretikett 30 Pflanzen als positiv oder negativ. Schritt sechs, elective neu ausbalancieren mit SMOTE oder SVM SMOTE, wenn die Beschriftungen verzerrt sind. Schritt sieben, Trainieren Sie einen kleinen Klassifikatorzum Beispiel eine RBF-SVM oder ein zweischichtiges MLP, um die ursprünglichen Vorschläge anzunehmen oder abzulehnen. Der Basisdetektor bleibt eingefroren, sodass Sie die Erinnerung und Verallgemeinerung beibehalten und der Verfeinerer die genaue Semantik lernt, die der Benutzer gemeint hat.

https://arxiv.org/pdf/2510.17670v1

Datensätze, Basismodelle und Einrichtung

Bei der Auswertung werden zwei Commonplace-Benchmarks für die Fernerkundungserkennung verwendet. DOTA hat orientierte Boxen über 15 Kategorien in hochauflösenden Luftbildern. DIOR verfügt über 23.463 Bilder und 192.472 Instanzen in 20 Kategorien. Der Vergleich umfasst a Zero-Shot-OWL-ViT-v2-BasislinieA Zero Shot RS OWL ViT v2 das ist fein abgestimmt RS WebLIund einige wenige Grundlinien. RS OWL ViT v2 verbessert den mittleren Null-Schuss-AP auf 31,827 Prozent auf DOTA und 29,387 Prozent auf DIOR, das zum Ausgangspunkt für FLAME wird.

https://arxiv.org/pdf/2510.17670v1

Die Ergebnisse verstehen

An 30 Schuss Anpassung, FLAME kaskadiert auf RS OWL ViT v2 erreicht 53,96 Prozent AP An DOTA Und 53,21 Prozent AP An DIORDies ist die höchste Genauigkeit unter den aufgeführten Methoden. Der Vergleich umfasst SIoU, eine prototypbasierte Methode mit DINOv2, und eine vom Forschungsteam vorgeschlagene Methode mit wenigen Schüssen. Diese Zahlen erscheinen in Tabelle 1. Das Forschungsteam berichtet auch über die Aufschlüsselung professional Klasse Tabelle 2. An DIORDie Schornstein Klasse verbessert sich von 0,11 im Nullschuss zu 0,94 nach FLAME, was veranschaulicht, wie der Verfeinerer ähnlich aussehende Fehlalarme aus den offenen Vokabularvorschlägen entfernt.

https://arxiv.org/pdf/2510.17670v1

Wichtige Erkenntnisse

  1. FLAME ist eine einstufige aktive Lernkaskade über OWL ViT v2. Es ruft Randproben mithilfe der Dichteschätzung ab, erzwingt Diversität durch Clustering, sammelt etwa 30 Labels und trainiert einen leichtgewichtigen Refiner wie eine RBF-SVM oder einen kleinen MLP, ohne dass eine Feinabstimmung des Basismodells erforderlich ist.
  2. Mit 30 Schüssen erreicht FLAME auf RS OWL ViT v2 53,96 % AP auf DOTA und 53,21 % AP auf DIOR und übersteigt damit die Basislinien früherer Schüsse, einschließlich SIoU und einer Prototypenmethode mit DINOv2.
  3. Bei DIOR verbessert sich die Schornsteinklasse von 0,11 im Nullschuss auf 0,94 nach FLAME, was eine starke Filterung ähnlicher Fehlalarme zeigt.
  4. Die Anpassung dauert für jedes Etikett etwa 1 Minute auf einer Commonplace-CPU, die eine Benutzer-in-the-Loop-Spezialisierung nahezu in Echtzeit unterstützt.
  5. Zero Shot OWL ViT v2 beginnt bei 13,774 % AP auf DOTA und 14,982 % auf DIOR, RS OWL ViT v2 erhöht Zero Shot AP auf 31,827 % bzw. 29,387 % und FLAME liefert dann die großen Präzisionsgewinne an der Spitze.

FLAME ist eine einstufige aktive Lernkaskade, die einen kleinen Refiner auf OWL ViT v2 legt, Randerkennungen auswählt, etwa 30 Labels sammelt und einen kleinen Klassifikator trainiert, ohne das Basismodell zu berühren. Auf DOTA und DIOR meldet FLAME mit RS OWL ViT v2 53,96 Prozent AP und 53,21 Prozent AP, was eine starke Basislinie für wenige Schüsse darstellt. Beim DIOR-Schornstein steigt die durchschnittliche Präzision nach der Verfeinerung von 0,11 auf 0,94, was die Unterdrückung falsch positiver Ergebnisse veranschaulicht. Die Anpassung dauert etwa 1 Minute professional Etikett auf einer CPU und ermöglicht so eine interaktive Spezialisierung. OWLv2 und RS WebLI bilden die Grundlage für Zero-Shot-Vorschläge. Insgesamt zeigt FLAME einen praktischen Weg zur Spezialisierung auf die Erkennung offener Vokabeln in der Fernerkundung durch die Kombination von RS OWL ViT v2-Vorschlägen mit einem CPU-Refiner im Minutenmaßstab, der DOTA auf 53,96 Prozent AP und DIOR auf 53,21 Prozent AP erhöht.


Schauen Sie sich das an Papier hier. Schauen Sie sich gerne bei uns um GitHub-Seite für Tutorials, Codes und Notebooks. Sie können uns auch gerne weiter folgen Twitter und vergessen Sie nicht, bei uns mitzumachen 100.000+ ML SubReddit und Abonnieren Unser E-newsletter. Warten! Bist du im Telegram? Jetzt können Sie uns auch per Telegram kontaktieren.


Asif Razzaq ist CEO von Marktechpost Media Inc.. Als visionärer Unternehmer und Ingenieur setzt sich Asif dafür ein, das Potenzial der künstlichen Intelligenz für das soziale Wohl zu nutzen. Sein jüngstes Unterfangen ist die Einführung einer Medienplattform für künstliche Intelligenz, Marktechpost, die sich durch eine ausführliche Berichterstattung über maschinelles Lernen und Deep-Studying-Nachrichten auszeichnet, die sowohl technisch fundiert als auch für ein breites Publikum leicht verständlich ist. Die Plattform verfügt über mehr als 2 Millionen monatliche Aufrufe, was ihre Beliebtheit beim Publikum verdeutlicht.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert