Die YOLO-Serie (You Solely Look As soon as) hat die Echtzeit-Objektidentifizierung ermöglicht. Die neueste Model, YOLOv11, verbessert Leistung und Effizienz. Dieser Artikel bietet ausführliche Diskussionen über die wichtigsten Fortschritte von YOLOv11, Parallelen zu früheren YOLO-Modellen und praktische Anwendungen. Wenn wir seine Entwicklungen verstehen, können wir erkennen, warum YOLOv11 voraussichtlich ein Schlüsselwerkzeug für die Echtzeit-Objekterkennung werden wird.

YOlov11

Lernziele

  1. Verstehen Sie die Grundprinzipien und die Entwicklung des YOLO-Objekterkennungsalgorithmus.
  2. Identifizieren Sie die wichtigsten Funktionen und Innovationen, die in YOLOv11 eingeführt wurden.
  3. Vergleichen Sie die Leistung und Architektur von YOLOv11 mit früheren YOLO-Versionen.
  4. Entdecken Sie die praktischen Anwendungen von YOLOv11 in verschiedenen realen Szenarien.
  5. Erfahren Sie, wie Sie ein YOLOv11-Modell für benutzerdefinierte Objekterkennungsaufgaben implementieren und trainieren.

Dieser Artikel wurde im Rahmen der veröffentlicht Knowledge Science-Blogathon.

Was ist YOLO?

es ist ein Echtzeit-Objekterkennungssystem und kann auch als Familie der Objekterkennungsalgorithmen bezeichnet werden. Im Gegensatz zu herkömmlichen Methoden, die mehrere Durchgänge über ein Bild auslösen würden, kann YOLO Objekte und ihre Positionen sofort in nur einem Durchgang erkennen, was zu einer effizienten Lösung für Aufgaben führt, die mit hoher Geschwindigkeit erledigt werden müssen, ohne Kompromisse bei der Genauigkeit einzugehen. Joseph Redmon führte YOLO im Jahr 2016 ein und es veränderte den Bereich der Objekterkennung, indem es Bilder als Ganzes und nicht bereichsweise verarbeitete, was die Erkennung viel schneller macht und gleichzeitig eine anständige Genauigkeit beibehält.

Entwicklung der YOLO-Modelle

YOLO hat sich durch mehrere Iterationen weiterentwickelt, wobei jede Model gegenüber der Vorgängerversion verbessert wurde. Hier ist eine kurze Zusammenfassung:

YOLO-Model Hauptmerkmale Einschränkungen
YOlov1 (2016) Erstes Echtzeit-Erkennungsmodell Probleme mit kleinen Gegenständen
YOlov2 (2017) Ankerboxen und Batch-Normalisierung hinzugefügt Immer noch schwach bei der Erkennung kleiner Objekte
YOlov3 (2018) Mehrskalenerkennung Höherer Rechenaufwand
YOlov4 (2020) Verbesserte Geschwindigkeit und Genauigkeit Kompromisse im Extremfall
YOLOv5 Benutzerfreundliche PyTorch-Implementierung Keine offizielle Veröffentlichung
YOLOv6/YOLOv7 Verbesserte Architektur Inkrementelle Verbesserungen
YOLOv8/YOLOv9 Bessere Handhabung dichter Objekte Zunehmende Komplexität
YOlov10 (2024) Transformatoren eingeführt, NMS-freie Ausbildung Begrenzte Skalierbarkeit für Edge-Geräte
YOlov11 (2024) Transformatorbasiert, dynamischer Kopf, NMS-freies Coaching, PSA-Module Anspruchsvolle Skalierbarkeit für stark eingeschränkte Edge-Geräte

Jede Model von YOLO hat zu Verbesserungen bei Geschwindigkeit, Genauigkeit und der Fähigkeit geführt, kleinere Objekte zu erkennen, wobei YOLOv11 das bisher fortschrittlichste ist.

Lesen Sie auch: YOLO: Eine ultimative Lösung zur Objekterkennung und -klassifizierung

Schlüsselinnovationen in YOLOv11

YOlov11 führt mehrere bahnbrechende Funktionen ein, die es von seinen Vorgängern unterscheiden:

  • Transformatorbasiertes Spine: Im Gegensatz zu herkömmlichen CNNs verwendet YOLOv11 ein transformatorbasiertes Spine, das Abhängigkeiten über große Entfernungen erfasst und die Erkennung kleiner Objekte verbessert.
  • Dynamisches Kopfdesign: Dadurch kann sich YOLOv11 an die Komplexität des Bildes anpassen und die Ressourcenzuweisung für eine schnellere und effizientere Verarbeitung optimieren.
  • NMS-freies Coaching: YOLOv11 ersetzt Non-Most Suppression (NMS) durch einen effizienteren Algorithmus, der die Inferenzzeit verkürzt und gleichzeitig die Genauigkeit beibehält.
  • Doppelte Etikettenzuweisung: Verbessert die Erkennung überlappender und dicht gepackter Objekte durch die Verwendung eines Eins-zu-eins- und Eins-zu-viele-Beschriftungszuweisungsansatzes.
  • Große Kernel-Faltungen: Ermöglicht eine bessere Merkmalsextraktion mit weniger Rechenressourcen und verbessert so die Gesamtleistung des Modells.
  • Partielle Selbstaufmerksamkeit (PSA): Wendet Aufmerksamkeitsmechanismen selektiv auf bestimmte Teile der Characteristic-Map an und verbessert so das globale Repräsentationslernen, ohne die Rechenkosten zu erhöhen.

Lesen Sie auch: Ein praktischer Leitfaden zur Objekterkennung mit dem beliebten YOLO Framework – Teil III (mit Python-Codes)

Vergleich von YOLO-Modellen

YOLOv11 übertrifft frühere YOLO-Versionen in Bezug auf Geschwindigkeit und Genauigkeit, wie in der folgenden Tabelle gezeigt:

Modell Geschwindigkeit (FPS) Genauigkeit (mAP) Parameter Anwendungsfall
YOlov3 30 FPS 53,0 % 62M Ausgewogene Leistung
YOlov4 40 FPS 55,4 % 64M Echtzeiterkennung
YOLOv5 45 FPS 56,8 % 44M Leichtes Modell
YOlov10 50 FPS 58,2 % 48M Edge-Bereitstellung
YOlov11 60 FPS 61,5 % 40M Schneller und genauer

Mit weniger Parametern gelingt es YOLOv11, Geschwindigkeit und Genauigkeit zu verbessern, was es ultimate für eine Reihe von Anwendungen macht.

Ultralytics YOLO
Quelle: Ultralytics YOLO

Lesen Sie auch: YOLOv7 – Echtzeit-Objekterkennung vom Feinsten

Leistungsbenchmark

YOLOv11 zeigt erhebliche Verbesserungen bei mehreren Leistungsmetriken:

  • Latenz: 25–40 % geringere Latenz im Vergleich zu YOLOv10, perfekt für Echtzeitanwendungen.
  • Genauigkeit: 10–15 % Verbesserung des mAP mit weniger Parametern.
  • Geschwindigkeit: Kann 60 Bilder professional Sekunde verarbeiten und ist damit eines der schnellsten Objekterkennungsmodelle.

Modellarchitektur von YOLOv11

Die Architektur von YOLOv11 integriert die folgenden Innovationen:

  • Transformer Spine: Verbessert die Fähigkeit des Modells, globalen Kontext zu erfassen.
  • Dynamisches Kopfdesign: Passt die Verarbeitung an die Komplexität jedes Bildes an.
  • PSA-Modul: Verbessert die globale Darstellung ohne großen Rechenaufwand.
  • Doppelte Etikettenzuweisung: Verbessert die Erkennung mehrerer überlappender Objekte.

Diese Architektur ermöglicht die effiziente Ausführung von YOLOv11 auf Excessive-Finish-Systemen und Edge-Geräten wie Mobiltelefonen.

YOLOv11-Beispielverwendung

Schritt 1: YOLOv11-Abhängigkeiten installieren

Installieren Sie zunächst die erforderlichen Pakete:

!pip set up ultralytics
!pip set up torch torchvision

Schritt 2: Laden Sie das YOLOv11-Modell

Sie können das vorab trainierte YOLOv11-Modell direkt über die Ultralytics-Bibliothek laden.

from ultralytics import YOLO

# Load a COCO-pretrained YOLO11n mannequin
mannequin = YOLO('yolo11n.pt')

Schritt 3: Trainieren Sie das Modell anhand des Datensatzes

Trainieren Sie das Modell auf Ihrem Datensatz mit der entsprechenden Anzahl von Epochen

# Prepare the mannequin on the COCO8 instance dataset for 100 epochs
outcomes = mannequin.practice(information="coco8.yaml", epochs=100, imgsz=640)

Testen Sie das Modell

Sie können das Modell speichern und es bei Bedarf an noch nicht gesehenen Bildern testen.

# Run inference on a picture
outcomes = mannequin("path/to/your/picture.png")

# Show outcomes
outcomes(0).present()

Unique- und Ausgabebild

Ich habe ungesehene Bilder zur Überprüfung der Modellvorhersage verwendet und sie haben die genaueste Ausgabe geliefert

AUSGABE
Ausgabe
Ausgabe
Ausgabe

Anwendungen von YOLOv11

Die Fortschritte von YOLOv11 machen es für verschiedene reale Anwendungen geeignet:

  1. Autonome Fahrzeuge: Die verbesserte Erkennung kleiner und verdeckter Objekte erhöht die Sicherheit und Navigation.
  2. Gesundheitspflege: Die Präzision von YOLOv11 hilft bei medizinischen Bildgebungsaufgaben wie der Tumorerkennung, bei denen es auf Genauigkeit ankommt.
  3. Einzelhandels- und Lagerverwaltung: Verfolgt das Kundenverhalten, überwacht den Lagerbestand und erhöht die Sicherheit in Einzelhandelsumgebungen.
  4. Überwachung: Seine Geschwindigkeit und Genauigkeit machen es perfekt für die Echtzeitüberwachung und Bedrohungserkennung.
  5. Robotik: YOLOv11 ermöglicht es Robotern, sich besser in Umgebungen zurechtzufinden und autonom mit Objekten zu interagieren.

Abschluss

YOLOv11 setzt einen neuen Normal für die Objekterkennung und kombiniert Geschwindigkeit, Genauigkeit und Flexibilität. Seine transformatorbasierte Architektur, das dynamische Kopfdesign und die doppelte Etikettenzuweisung ermöglichen ihm eine hervorragende Leistung in einer Reihe von Echtzeitanwendungen, von autonomen Fahrzeugen bis hin zum Gesundheitswesen. YOLOv11 ist auf dem besten Weg, ein wichtiges Werkzeug für Entwickler und Forscher zu werden und den Weg für zukünftige Fortschritte in der Objekterkennungstechnologie zu ebnen.

Wenn Sie auf der Suche nach einem On-line-Kurs zum Thema „Generative KI“ sind, schauen Sie sich Folgendes an: GenAI Pinnacle-Programm.

Wichtige Erkenntnisse

  1. YOLOv11 führt ein transformatorbasiertes Rückgrat und ein dynamisches Kopfdesign ein, wodurch die Objekterkennung in Echtzeit mit verbesserter Geschwindigkeit und Genauigkeit verbessert wird.
  2. Es übertrifft frühere YOLO-Modelle, indem es 60 FPS und einen 61,5 %-mAP mit weniger Parametern erreicht, was es effizienter macht.
  3. Wichtige Innovationen wie NMS-freies Coaching, doppelte Etikettenzuweisung und teilweise Selbstaufmerksamkeit verbessern die Erkennungsgenauigkeit, insbesondere bei überlappenden Objekten.
  4. Die praktischen Anwendungen von YOLOv11 erstrecken sich über autonome Fahrzeuge, das Gesundheitswesen, den Einzelhandel, die Überwachung und die Robotik und profitieren von seiner Geschwindigkeit und Präzision.
  5. YOLOv11 reduziert die Latenz im Vergleich zu YOLOv10 um 25–40 % und festigt damit seine Place als führendes Instrument für Echtzeit-Objekterkennungsaufgaben.

Die in diesem Artikel gezeigten Medien sind nicht Eigentum von Analytics Vidhya und werden nach Ermessen des Autors verwendet.

Häufig gestellte Fragen

Q1. Was ist YOLO?

Antwort. YOLO, oder „You Solely Look As soon as“, ist ein Echtzeit-Objekterkennungssystem, das Objekte in einem einzigen Durchgang über ein Bild identifizieren kann, was es effizient und schnell macht. Es wurde 2016 von Joseph Redmon eingeführt und revolutionierte den Bereich der Objekterkennung, indem es Bilder als Ganzes verarbeitete, anstatt Regionen separat zu analysieren.

Q2. Was sind die Hauptmerkmale von YOLOv11?

Antwort. YOLOv11 führt mehrere Innovationen ein, darunter ein transformatorbasiertes Spine, dynamisches Kopfdesign, NMS-freies Coaching, doppelte Etikettenzuweisung und partielle Selbstaufmerksamkeit (PSA). Diese Funktionen verbessern Geschwindigkeit, Genauigkeit und Effizienz und eignen sich daher intestine für Echtzeitanwendungen.

Q3. Wie schneidet YOLOv11 im Vergleich zu früheren Versionen ab?

Antwort. YOLOv11 übertrifft frühere Versionen mit einer Verarbeitungsgeschwindigkeit von 60 FPS und einer mAP-Genauigkeit von 61,5 %. Es verfügt über weniger Parameter (40 MB) im Vergleich zu den 48 MB von YOLOv10 und bietet eine schnellere und genauere Objekterkennung bei gleichzeitiger Beibehaltung der Effizienz.

This fall. Was sind die praktischen Anwendungen von YOLOv11?

Antwort. YOLOv11 kann in autonomen Fahrzeugen, im Gesundheitswesen (z. B. medizinische Bildgebung), im Einzelhandel und in der Bestandsverwaltung, in der Echtzeitüberwachung und in der Robotik eingesetzt werden. Seine Geschwindigkeit und Präzision machen es ultimate für Szenarien, die eine schnelle und zuverlässige Objekterkennung erfordern.

F5. Welche Fortschritte in YOLOv11 machen es für die Echtzeitnutzung effizient?

Antwort. Durch die Verwendung eines transformatorbasierten Backbones, eines dynamischen Kopfdesigns, das sich an die Bildkomplexität anpasst, und eines NMS-freien Trainings kann YOLOv11 die Latenz im Vergleich zu YOLOv10 um 25–40 % reduzieren. Diese Verbesserungen ermöglichen die Verarbeitung von bis zu 60 Bildern professional Sekunde, ultimate für Echtzeitaufgaben.

Ich bin Neha Dwivedi, eine Knowledge-Science-Enthusiastin, die bei SymphonyTech arbeitet und Absolventin der MIT World Peace College ist. Ich interessiere mich leidenschaftlich für Datenanalyse und maschinelles Lernen. Ich freue mich darauf, Erkenntnisse zu teilen und von dieser Group zu lernen!

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert