Ein funktionierendes KI-Modell basiert auf soliden, zuverlässigen und dynamischen Datensätzen. Ohne reichhaltige und detaillierte KI-Trainingsdaten ist es sicherlich nicht möglich, eine wertvolle und erfolgreiche KI-Lösung zu entwickeln. Wir wissen, dass die Komplexität des Projekts die erforderliche Datenqualität diktiert und bestimmt. Aber wir sind uns nicht ganz sicher, wie viele Trainingsdaten wir benötigen, um das benutzerdefinierte Modell zu erstellen.
Es gibt keine eindeutige Antwort auf die Frage, was die richtige Menge an Trainingsdaten für maschinelles Lernen ist erforderlich. Anstatt mit einer ungefähren Zahl zu arbeiten, glauben wir, dass eine Reihe von Methoden Ihnen eine genaue Vorstellung von der Datenmenge geben können, die Sie möglicherweise benötigen. Aber vorher wollen wir verstehen, warum Trainingsdaten für den Erfolg Ihres KI-Projekts entscheidend sind.
Die Bedeutung von Trainingsdaten
Arvind Krishna, CEO von IBM, sagte auf dem Way forward for Every part Pageant des Wall Avenue Journals, dass quick 80 % der Arbeit in einem KI-Projekt dreht sich alles um das Sammeln, Bereinigen und Vorbereiten von Daten.‘ Und er conflict auch der Meinung, dass Unternehmen ihre KI-Vorhaben aufgeben, weil sie mit den Kosten, der Arbeit und der Zeit, die zum Sammeln wertvoller Trainingsdaten erforderlich sind, nicht mithalten können.
Ermittlung der Daten Stichprobengröße hilft bei der Entwicklung der Lösung. Es hilft auch bei der genauen Schätzung der für das Projekt erforderlichen Kosten, Zeit und Fähigkeiten.
Wenn zum Trainieren von ML-Modellen ungenaue oder unzuverlässige Datensätze verwendet werden, liefert die resultierende Anwendung keine guten Vorhersagen.
7 Faktoren, die das erforderliche Trainingsdatenvolumen bestimmen
Obwohl der Datenbedarf in Bezug auf das Volumen zum Trainieren von KI-Modellen völlig subjektiv ist und von Fall zu Fall beurteilt werden sollte, gibt es einige universelle Faktoren, die objektiven Einfluss haben. Schauen wir uns die häufigsten an.
Modell für maschinelles Lernen
Das Trainingsdatenvolumen hängt davon ab, ob das Coaching Ihres Modells mit überwachtem oder unüberwachtem Lernen durchgeführt wird. Während ersteres mehr Trainingsdaten erfordert, ist dies bei letzterem nicht der Fall.
Überwachtes Lernen
Dabei werden gekennzeichnete Daten verwendet, was wiederum das Coaching komplexer macht. Aufgaben wie die Klassifizierung oder Clusterung von Bildern erfordern Beschriftungen oder Zuordnungen, damit Maschinen sie entschlüsseln und unterscheiden können, was wiederum zu einem Bedarf an mehr Daten führt.
Unüberwachtes Lernen
Die Verwendung gekennzeichneter Daten ist beim unüberwachten Lernen nicht zwingend erforderlich, wodurch der Bedarf an riesigen Datenmengen vergleichsweise gering ist. Dennoch wäre das Datenvolumen für Modelle, die Muster erkennen, angeborene Strukturen identifizieren und korrelieren möchten, immer noch hoch.
Variabilität & Diversität
Damit ein Modell so truthful und objektiv wie möglich ist, sollte die angeborene Voreingenommenheit vollständig beseitigt werden. Dies bedeutet lediglich, dass größere Mengen unterschiedlicher Datensätze erforderlich sind. Dadurch wird sichergestellt, dass ein Modell eine Vielzahl vorhandener Wahrscheinlichkeiten lernt und einseitige Antworten vermieden werden.
Datenerweiterung und Transferlernen
Die Beschaffung hochwertiger Daten für verschiedene Anwendungsfälle in verschiedenen Branchen und Bereichen ist nicht immer reibungslos. In sensiblen Sektoren wie dem Gesundheitswesen oder dem Finanzwesen sind hochwertige Daten kaum verfügbar. In solchen Fällen ist die Datenerweiterung durch die Verwendung synthetisierter Daten der einzige Weg, um Modelle zu trainieren.
Experimentieren und Validierung
Iteratives Coaching ist der Ausgleich, bei dem das erforderliche Trainingsdatenvolumen nach konsequentem Experimentieren und Validieren der Ergebnisse berechnet wird. Durch wiederholtes Testen und Überwachen
Anhand der Modellleistung können die Beteiligten abschätzen, ob weitere Trainingsdaten zur Reaktionsoptimierung erforderlich sind.
So reduzieren Sie den Datenbedarf für das Coaching
Unabhängig davon, ob es sich um Budgetbeschränkungen, Markteinführungsfristen oder die Nichtverfügbarkeit unterschiedlicher Daten handelt, gibt es einige Optionen, mit denen Unternehmen ihre Abhängigkeit von riesigen Mengen an Trainingsdaten verringern können.
- Datenerweiterung – bei der neue Daten aus vorhandenen Datensätzen generiert oder synthetisiert werden, eignet sich perfect als Trainingsdaten. Diese Daten stammen von übergeordneten Daten und ahmen diese nach, die zu 100 % aus echten Daten bestehen.
- Transferlernen – dabei werden die Parameter eines vorhandenen Modells geändert, um eine neue Aufgabe auszuführen. Wenn Ihr Modell beispielsweise gelernt hat, Äpfel zu erkennen, können Sie dasselbe Modell verwenden und seine vorhandenen Trainingsparameter ändern, um auch Orangen zu erkennen.
- Vorab trainierte Modelle – bei denen vorhandenes Wissen als Weisheit für Ihr neues Projekt genutzt werden kann. Dies könnte ResNet für Aufgaben im Zusammenhang mit der Bilderkennung oder BERT für NLP-Anwendungsfälle sein.
3 – Beispiele aus der Praxis für Machine-Studying-Projekte mit minimalen Datensätzen
Es magazine unmöglich klingen, dass einige ehrgeizige Machine-Studying-Projekte mit minimalen Rohstoffen durchgeführt werden können, aber in manchen Fällen ist es erstaunlich wahr. Lassen Sie sich überraschen.
Kaggle-Bericht | Gesundheitspflege | Klinische Onkologie |
Eine Kaggle-Umfrage zeigt, dass über 70 % der Projekte zum maschinellen Lernen mit weniger als 10.000 Beispielen abgeschlossen wurden. | Mit nur 500 Bildern trainierte ein MIT-Staff ein Modell, um diabetische Neuropathie in medizinischen Bildern aus Augenscans zu erkennen. | Um das Beispiel aus dem Gesundheitswesen fortzusetzen: Einem Staff der Stanford College gelang es, mit nur 1.000 Bildern ein Modell zur Erkennung von Hautkrebs zu entwickeln. |
Fundierte Vermutungen anstellen
Für die erforderliche Mindestdatenmenge gibt es keine magische Zahl, aber einige Faustregeln helfen Ihnen dabei, eine vernünftige Zahl zu ermitteln.
Die 10er-Regel
Als FaustregelUm ein effizientes KI-Modell zu entwickeln, sollte die Anzahl der erforderlichen Trainingsdatensätze zehnmal größer sein als jeder Modellparameter, auch Freiheitsgrade genannt. Die „10“-Regel zielt darauf ab, die Variabilität zu begrenzen und die Vielfalt der Daten zu erhöhen. Diese Faustregel kann Ihnen daher beim Begin Ihres Projekts helfen, indem sie Ihnen eine grundlegende Vorstellung von der erforderlichen Menge an Datensätzen gibt.
Tiefes Lernen
Deep-Studying-Methoden helfen bei der Entwicklung hochwertiger Modelle, wenn dem System mehr Daten zur Verfügung gestellt werden. Es ist allgemein anerkannt, dass 5000 beschriftete Bilder professional Kategorie ausreichen sollten, um einen Deep-Studying-Algorithmus zu erstellen, der auf Augenhöhe mit Menschen arbeiten kann. Um außergewöhnlich komplexe Modelle zu entwickeln, sind mindestens 10 Millionen beschriftete Elemente erforderlich.
Pc Imaginative and prescient
Wenn Sie Deep Studying zur Bildklassifizierung verwenden, besteht Einigkeit darüber, dass ein Datensatz mit 1.000 beschrifteten Bildern für jede Klasse eine angemessene Zahl ist.
Lernkurven
Lernkurven werden verwendet, um die Leistung des maschinellen Lernalgorithmus im Verhältnis zur Datenmenge zu demonstrieren. Indem man die Modellfähigkeit auf der Y-Achse und den Trainingsdatensatz auf der X-Achse hat, ist es möglich zu verstehen, wie sich die Datengröße auf das Ergebnis des Projekts auswirkt.