Willkommene Leser, die CV -Klasse ist wieder in der Sitzung! Wir haben zuvor 30+ untersucht Laptop Imaginative and prescient -Modelle Bisher bringt jeder in meinem vorherigen Weblog ihre eigenen einzigartigen Stärken auf den Tisch, von den schnellen Erkennungsfähigkeiten von Yolo bis zur transformativen Kraft von Imaginative and prescient Transformers (Vits). Heute stellen wir einen neuen Schüler in unser Klassenzimmer vor: rf-detr. Lesen Sie weiter, um alles über Roboflows RF-Detr zu wissen und wie es die Geschwindigkeit und Genauigkeit der Objekterkennung überbrückt.

Was ist Roboflows RF-Detr?

RF-Detr ist ein Echtzeit-Transformator-basiertes basiert Objekterkennung Modell, das über 60 Karte im Coco -Datensatz erreicht und eine beeindruckende Leistung zeigt. Natürlich sind wir neugierig: Wird RF-Detr in der Lage sein, Yolos Geschwindigkeit zu erreichen? Kann es sich an verschiedene Aufgaben anpassen, denen wir in der realen Welt begegnen?

Das sind wir hier, um zu erkunden. In diesem Artikel werden die Kernfunktionen von RF-DETRT, seine Echtzeitfähigkeiten, die Anpassungsfähigkeit der Domänen und die Verfügbarkeit von Open-Supply-Funktionen aufschlüsseln und sehen, wie es sich neben anderen Modellen entwickelt. Lassen Sie uns eintauchen und sehen, ob dieser Newcomer das Zeug dazu hat, sich in realen Anwendungen zu übertreffen!

Warum ist RF-Detr ein Sport Changer?

  • Hervorragende Leistung sowohl für Coco- als auch für RF100-VL-Benchmarks.
  • Entwickelt, um sowohl neuartige Domänen als auch Hochgeschwindigkeitsumgebungen zu handhaben, wodurch sie perfekt für Anwendungen von Kanten und Latenz.
  • Prime 2 in allen Kategorien im Vergleich zu Echtzeit-Coco-SOTA-Transformatormodellen (wie D-High-quality und LW-Detr) und SOTA YOLO CNN-Modellen (wie Yolov11 und Yolov8).

Modellleistung und neue Benchmarks

Objekterkennungsmodelle werden zunehmend herausgefordert, ihren Wert über nur Coco zu beweisen – ein Datensatz, der zwar historisch kritisch ist, aber seitdem nicht mehr aktualisiert wurde 2017. Infolgedessen zeigen viele Modelle nur marginale Verbesserungen an Coco und wenden sich an andere Datensätze (z. B. LVIS, Objects365), um die Generalisierbarkeit zu demonstrieren.

RF100-VL: Roboflows neuer Benchmark, der rund 100 verschiedene Datensätze (Luftbilder, industrielle Inspektionen usw.) von 500.000 über das Roboflow -Universum sammelt. Dieser Benchmark betont Area -AnpassungsfähigkeitEin kritischer Faktor für reale Anwendungsfälle, in denen Daten drastisch von den gängigen Objekten von Coco unterscheiden können.

Warum wir RF100-VL brauchen

  • Actual World Vielfalt: RF100-VL enthält Datensätze, die Szenarien wie Laborbildgebung, industrielle Inspektion und Luftfotografie abdecken, um zu testen, wie intestine Modelle externe traditionelle Benchmarks durchführen.
  • Verschiedene Benchmarks: Durch die Standardisierung des Evaluierungsprozesses ermöglicht RF100-VL direkte Vergleiche zwischen verschiedenen Architekturen, einschließlich transformatorischer Modelle und CNN-basierter YOLO-Varianten.
  • Anpassungsfähigkeit gegenüber inkrementellen Gewinnen: Bei der Sättigung von Kokos wird die Anpassungsfähigkeit der Domänen neben Latenz und Rohgenauigkeit zu einer erstklassigen Überlegung.

In der obigen Tabelle können wir sehen, wie sich RF-DETRT gegen andere Echtzeit-Objekterkennungsmodelle stapelt:

  • Coco: Die Basisvariante von RF-Detr erreicht 53,3 Karte und platziert sie mit anderen Echtzeitmodellen.
  • RF100-VL: RF-Detr übertrifft andere Modelle (86.7 MAP) und zeigt die außergewöhnliche Domänenanpassungsfähigkeit.
  • Geschwindigkeit: Bei einer T4-GPU 6,0 ms/IMG übertrifft RF-Detr-Matches oder übertrifft konkurrierende Modelle, wenn sie in der Nachbearbeitung berücksichtigt werden.

Notiz: Ab sofort sind Code und Checkpoint für RF-DETRT-Massive und RF-Detr-Base verfügbar.

Die Gesamtlatenz ist auch wichtig

  • NMS in Yolo: YOLO-Modelle verwenden die Nicht-Most-Unterdrückung (NMS), um Begrenzungsboxen zu verfeinern. Dieser Schritt kann die Schlussfolgerung geringfügig verlangsamen, insbesondere wenn es viele Objekte im Rahmen gibt.
  • Kein zusätzlicher Schritt in DELS: RF-Detr folgt dem Ansatz der DETR-Familie und vermeidet die Notwendigkeit eines zusätzlichen NMS-Schritts zur Verfeinerung des Begrenzungsboxen.

Latenz gegen Genauigkeit auf Coco

  • Horizontale Achse (Latenz): Gemessen in Millisekunden (MS) professional Bild auf einer Nvidia T4 -GPU unter Verwendung von Tensorrt10 FP16. Niedriger Latenz bedeutet hier eine schnellere Folgerung 🙂 🙂
  • Vertikale Achse (MAP @0,50: 0,95): Die mittlere durchschnittliche Präzision am Microsoft Coco -Benchmark, ein Standardmaß für die Erkennungsgenauigkeit. Eine höhere Karte zeigt eine bessere Leistung an.

In diesem Diagramm zeigt RF-DETRT die Wettbewerbsgenauigkeit mit YOLO-Modellen und hält die Latenz im gleichen Bereich. RF-DETRT übertrifft die 60-Karte-Schwelle, sodass es die zuerst dokumentiert Echtzeitmodell, um dieses Leistungsniveau auf Coco zu erreichen.

Area-Anpassungsfähigkeit auf RF100-VL

Hier, Rf-detr fällt auf, indem er die höchste Karte auf RF100-VL erreicht, was auf eine starke Anpassungsfähigkeit hinsichtlich unterschiedlicher Domänen hinweist. Dies deutet darauf hin, dass RF-Detr nicht nur auf Coco wettbewerbsfähig ist, sondern auch bei der Behandlung von Datensätzen mit realen Welt, bei denen domänenspezifische Objekte und Bedingungen sich erheblich von gemeinsamen Objekten im Coco unterscheiden können.

Potenzielle Rangfolge von RF-DETRT

Basierend auf den Leistungsmetriken aus der Roboflow-Rangliste zeigt RF-DETRT konkurrenzfähige Ergebnisse sowohl bei Genauigkeit als auch in Effizienz.

  • RF-DETRT-Massive (128m Parames) würde Rang 1stübertreffen alle vorhandenen Modelle mit einer geschätzten Karte 50:95 oben 60.5was es zum genauesten Modell auf der Rangliste macht.
  • RF-DETRT-Base (29M Parames) würde Rang um den 4. Platzeng mit Modellen wie möglich konkurrieren DEIM-D-High-quality-X (61,7 m Parames, 0,548 Karte 50:95) Und D-High-quality-X (61,6 m Parames, 0,541 Karte 50:95). Trotz seiner niedrigeren Parameterzahl behält es einen starken Genauigkeitsvorteil.

In diesem Rang wird die Effizienz von RF-DETR weiter hervorgehoben und eine hohe Leistung mit optimierter Latenz liefert und gleichzeitig eine kleinere Modellgröße im Vergleich zu einigen Konkurrenten beibehalten.

RF-DETRT-Architekturübersicht

Historisch, CNN-basierte YOLO-Modelle haben das Paket in Echtzeit-Objekterkennung geführt. Allerdings profitieren CNNs allein nicht immer von großem Maßstab vor dem Coaching, was beim maschinellen Lernen zunehmend zentraler ist.

Transformatoren Excel mit großem Maßstab vor dem Coaching, battle aber oft zu sperrig (schwer) oder für Echtzeitanwendungen. Jüngste Arbeiten zeigen jedoch, dass DETR-basierte Modelle mit Yolos Geschwindigkeit übereinstimmen können, wenn wir betrachten, dass der Nachbearbeitungs-Overhead-Yolo Yolo erfordert.

Der Hybridvorteil von RF-DETRT

  • Vorausgebildes Dinov2-Rückgrat: Dies hilft dem Modelltransferwissen aus großem Maßstab vor dem Coaching und erhöht die Leistung in neuartigen oder unterschiedlichen Domänen. RF-Detr kombiniert LW-Detr mit einem vorgebildeten Dinov2-Rückgrat und bietet außergewöhnliche Domänenanpassungsfähigkeit und erhebliche Vorteile von der Vorausbildung.
  • Einzelgipfel-Function-Extraktion: Während deformierbares DEFTR die multi-gesellschaftliche Aufmerksamkeit nutzt, vereinfacht RF-Detr die Merkmalextraktion zu einer einzelnen Skala und schlägt ein Gleichgewicht zwischen Geschwindigkeit und Leistung.
  • Mehrauflösungstraining: RF-Detr kann bei mehreren Auflösungen geschult werden, sodass Sie den besten Kompromiss zwischen Geschwindigkeit und Genauigkeit bei Inferenz auswählen können, ohne das Modell umzusetzen.

Lesen Sie dies für weitere Informationen. Lesen Sie dies. Lesen Sie dies Forschungspapier.

Wie benutze ich RF-Detr?

Aufgabe 1: Verwenden Sie es zur Objekterkennung in einem Bild

Installieren Sie RF-Detr über:

!pip set up rfdetr

Sie können dann einen vorgeborenen Kontrollpunkt (auf Coco ausgebildet) für sofortige Verwendung in Ihrer Anwendung laden:

import io

import requests

import supervision as sv

from PIL import Picture

from rfdetr import RFDETRBase

mannequin = RFDETRBase()

url = "https://media.roboflow.com/notebooks/examples/dog-2.jpeg"

picture = Picture.open(io.BytesIO(requests.get(url).content material))

detections = mannequin.predict(picture, threshold=0.5)

annotated_image = picture.copy()

annotated_image = sv.BoxAnnotator().annotate(annotated_image, detections)

annotated_image = sv.LabelAnnotator().annotate(annotated_image, detections)

sv.plot_image(annotated_image)

Aufgabe 2: Verwenden Sie es zur Objekterkennung in einem Video

Ich werde Ihnen meinen Github -Repository -Hyperlink zur Verfügung stellen, damit Sie das Modell selbst frei implementieren können. Folgen Sie einfach den Anweisungen von Readme.md, um den Code auszuführen.

Github Hyperlink.

Code:

import cv2

import numpy as np

import json

from rfdetr import RFDETRBase

# Load the mannequin

mannequin = RFDETRBase()

# Learn the courses.json file and retailer class names in a dictionary

with open('courses.json', 'r', encoding='utf-8') as file:

    class_names = json.load(file)

# Open the video file

cap = cv2.VideoCapture('strolling.mp4')  # https://www.pexels.com/video/video-of-people-walking-855564/

# Create the output video

fourcc = cv2.VideoWriter_fourcc(*'XVID')

out = cv2.VideoWriter('output.mp4', fourcc, 20.0, (960, 540))

# For reside video streaming:

# cap = cv2.VideoCapture(0)  # 0 refers back to the default digicam

whereas True:

    # Learn a body

    ret, body = cap.learn()

    if not ret:

        break  # Exit the loop when the video ends

    # Carry out object detection

    detections = mannequin.predict(body, threshold=0.5)

    # Mark the detected objects

    for i, field in enumerate(detections.xyxy):

        x1, y1, x2, y2 = map(int, field)

        class_id = int(detections.class_id(i))

        # Get the category identify utilizing class_id

        label = class_names.get(str(class_id), "Unknown")

        confidence = detections.confidence(i)

        # Draw the bounding field (coloured and thick)

        coloration = (255, 255, 255)  # White coloration

        thickness = 7  # Thickness

        cv2.rectangle(body, (x1, y1), (x2, y2), coloration, thickness)

        # Show the label and confidence rating (in white coloration and readable font)

        textual content = f"{label} ({confidence:.2f})"

        font = cv2.FONT_HERSHEY_SIMPLEX

        font_scale = 2

        font_thickness = 7

        text_size = cv2.getTextSize(textual content, font, font_scale, font_thickness)(0)

        text_x = x1

        text_y = y1 - 10

        cv2.putText(body, textual content, (text_x, text_y), font, font_scale, (0, 0, 255), font_thickness, cv2.LINE_AA)

    # Show the outcomes

    resized_frame = cv2.resize(body, (960, 540))

    cv2.imshow('Labeled Video', resized_frame)

    # Save the output

    out.write(resized_frame)

    # Exit when 'q' secret's pressed

    if cv2.waitKey(1) & 0xFF == ord('q'):

        break

# Launch sources

cap.launch()

out.launch()  # Launch the output video

cv2.destroyAllWindows()

Ausgabe:

Feinabstimmung für benutzerdefinierte Datensätze

In der Feinabstimmung leuchtet RF-Detr wirklich, insbesondere wenn Sie mit Nischen- oder kleineren Datensätzen arbeiten:

  • Verwenden Sie das CoCo -Format: Organisieren Sie Ihren Datensatz in den Zug/, gültig/und testen Sie/Verzeichnisse, jeweils mit seinen eigenen _annotations.coco.json.
  • Nutzen Sie Colab: Das Roboflow -Group bietet ein detailliertes Colab Pocket book (bereitgestellt vom Roboflow -Group), um Sie durch das Coaching in Ihrem eigenen Datensatz zu führen.
from rfdetr import RFDETRBase

mannequin = RFDETRBase()

mannequin.prepare(

    dataset_dir="<DATASET_PATH>",

    epochs=10,

    batch_size=4,

    grad_accum_steps=4,

    lr=1e-4

)

Während des Trainings wird RF-Detr produzieren:

  • Regelmäßige Gewichte: Standardmodell -Kontrollpunkte.
  • EMA -Gewichte: Eine exponentielle gleitende Durchschnittsversion des Modells, die häufig eine stabilere Leistung erbringt.

Wie trainiere ich RF-Detr in einem benutzerdefinierten Datensatz?

Zum Beispiel hat das Roboflow-Group einen Mahjong-Fliesenerkennungsdatensatz verwendet, der Teil des RF100-VL-Benchmarks, der über 2.000 Bilder enthält. In diesem Handbuch wird angezeigt, wie Sie den Datensatz herunterladen, die erforderlichen Instruments installieren und das Modell auf Ihren benutzerdefinierten Daten optimieren.

Die resultierende Anzeige sollte die Grundwahrheit auf der einen Seite und die Erkennungen des Modells auf der anderen Seite zeigen. In unserem Beispiel identifiziert RF-DETRT die meisten Mahjong-Fliesen korrekt, wobei nur geringfügige Fehlverhandlungen durch weiteres Coaching verbessert werden können.

Wichtiger Hinweis:

  • Instanzsegmentierung: RF-Detr unterstützt derzeit keine Instanzsegmentierung, wie in Open Supply Lead von Roboflow festgestellt wird. Piotr Skalski.
  • POSE -Schätzung: Die Unterstützung der Pose -Schätzung steht ebenfalls am Horizont und wird in Kürze kommen.

Endgültiges Urteil und potenzielle Kante über andere Lebenslaufmodelle

RF-Detr ist eines der besten Echtzeit-DETR-basierten Modelle und bietet ein starkes Gleichgewicht zwischen Genauigkeit, Geschwindigkeit und Anpassungsfähigkeit der Domänen. Wenn Sie einen in Echtzeit transformator basierenden Detektor benötigen, der die Nachbearbeitungsaufwand vermeidet und über Coco verallgemeinert wird, ist dies ein Prime-Anwärter. Yolov8 hält jedoch für einige Anwendungen immer noch eine Kante an der Rohgeschwindigkeit.

Wobei RF-Detr andere CV-Modelle übertreffen kann:

  • Spezielle Domänen und benutzerdefinierte Datensätze: RF-Detr zeichnet sich in der Domänenanpassung aus (86.7 Karte auf RF100-VL), es very best für medizinische Bildgebung, Industriefehlererkennung und autonome Navigation Wo mit Coco-ausgebildete Modelle kämpfen.
  • Anwendungen mit niedriger Latenz: Da es erfordert keine NMSes kann sein schneller als Yolo In Szenarien, in denen Nachbearbeitung Overhead hinzufügt, wie z. Drohnenbasierte Erkennung, Videoanalyse oder Robotik.
Roboflows RF-Detr
  • Transformator-basierte Zukunftssicherung: Im Gegensatz zu CNN-basierten Detektoren (Yolo, schnellerer R-CNN) profitiert RF-DETR von Vorteilen von Selbstbekämpfung und groß anwas es besser für geeignet ist für Multi-Objekt-Argumentation, Verschluss und Verallgemeinerung in unsichtbare Umgebungen.
  • Kanten -AI & eingebettete Geräte: Rf-detr’s Inferenzzeit von 6,0 ms/IMG auf einer T4 -GPU schlägt vor, es könnte ein starker Kandidat für sein Echtzeit-Edge-Bereitstellung wo herkömmliche DETR -Modelle zu langsam sind.

Eine Runde des Applaus für das Roboflow ML -Group – Peter Robicheaux, James Gallagher, Joseph Nelson, Isaac Robinson.

Peter RobicheauxAnwesend James GallagherAnwesend Joseph NelsonAnwesend Isaac Robinson. (20. März 2025). RF-Detr: Ein SOTA-Echtzeit-Objekterkennungsmodell. Roboflow-Weblog: https://weblog.roboflow.com/rf-detr/

Abschluss

RFOFLOW-RF-DETRT stellt eine neue Era von Echtzeit-Objekterkennung dar, das ausbalanciert wird hohe GenauigkeitAnwesend Area -AnpassungsfähigkeitUnd geringe Latenz in einem einzigen Modell. Unabhängig davon, ob Sie ein modernes Robotiksystem erstellen oder auf ressourcenbegrenzten Kantengeräten eingesetzt werden, bietet RF-Detr eine vielseitige und zukunftssichere Lösung.

Was denkst du? Lassen Sie mich im Kommentarbereich wissen.

Genai Praktikant @ Analytics Vidhya | Letzte Jahr @ Vit Chennai
Leidenschaftlich für KI und maschinelles Lernen, ich bin bestrebt, als KI/ML -Ingenieur oder Datenwissenschaftler in Rollen einzutauchen, wo ich einen echten Einfluss haben kann. Ich freue mich sehr, modern Lösungen und hochmoderne Fortschritte auf den Tisch zu bringen. Meine Neugier treibt mich an, KI über verschiedene Bereiche hinweg zu erkunden und die Initiative zu ergreifen, um sich mit Information Engineering zu befassen, um sicherzustellen, dass ich vorne bleibe und wirksame Projekte liefere.

Melden Sie sich an, um weiter zu lesen und Experten-Kuratinhalte zu genießen.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert