Vom Autor mit DALL-E 2 erstelltes Banner.

Größer = besser?

In der KI ist größer oft besser – wenn genügend Daten vorhanden sind, um diese großen Modelle zu versorgen. Da jedoch nur begrenzte Daten vorliegen, Größere Modelle neigen eher zur Überanpassung. Überanpassung tritt auf, wenn das Modell Muster aus den Trainingsdaten speichert, die sich nicht intestine auf reale Datenbeispiele übertragen lassen. Es gibt jedoch einen anderen Ansatz, den ich in diesem Zusammenhang noch überzeugender finde.

Angenommen, Sie haben einen kleinen Datensatz von Spektrogrammen und entscheiden sich zwischen einem kleinen CNN-Modell (100.000 Parameter) oder einem großen CNN (10 Millionen Parameter). Erinnere dich daran Jeder Modellparameter ist effektiv eine aus dem Trainingsdatensatz abgeleitete Greatest-Visitor-Zahl. Wenn wir es so betrachten, ist es offensichtlich, dass es für ein Modell einfacher ist, 100.000 Parameter richtig hinzubekommen, als 10 Millionen.

Am Ende führen beide Argumente zum gleichen Ergebnis:

Wenn die Daten knapp sind, sollten Sie erwägen, kleinere Modelle zu erstellen, die sich nur auf die wesentlichen Muster konzentrieren.

Doch wie lassen sich kleinere Modelle in der Praxis umsetzen?

Walnüsse nicht mit Vorschlaghammer knacken

Meine Lernreise in der Musik-KI wurde von Deep Studying dominiert. Bis vor einem Jahr hatte ich quick jedes Drawback mithilfe großer neuronaler Netze gelöst. Während dies für komplexe Aufgaben wie Musik-Tagging oder Instrumentenerkennung sinnvoll ist, Nicht jede Aufgabe ist so kompliziert.

Beispielsweise kann ein anständiger BPM-Schätzer oder Schlüsseldetektor ohne maschinelles Lernen erstellt werden, indem die Zeit zwischen den Einsätzen analysiert bzw. Chromagramme mit Schlüsselprofilen korreliert werden.

Selbst für Aufgaben wie das Markieren von Musik muss es nicht immer ein Deep-Studying-Modell sein. Ich habe gute Ergebnisse beim Temper-Tagging durch einen einfachen Okay-Nearest Neighbor-Klassifikator über einen Einbettungsraum (z. B. CLAP) erzielt.

Während die meisten modernen Methoden der Musik-KI auf Deep Studying basieren, various Lösungen sollten bei Datenknappheit in Betracht gezogen werden.

Achten Sie auf die Dateneingabegröße

Wichtiger als die Wahl der Modelle ist in der Regel die Wahl der Eingabedaten. In der Musik-KI verwenden wir aufgrund der Datenineffizienz selten Rohwellenformen als Eingabe. Durch die Umwandlung von Wellenformen in (Mel)Spektrogramme können wir die Dimensionalität der Eingabedaten verringern um den Faktor 100 oder mehr. Dies ist wichtig, da umfangreiche Dateneingaben in der Regel größere und/oder komplexere Modelle zu ihrer Verarbeitung erfordern.

Um die Größe der Modelleingabe zu minimieren, können wir zwei Wege wählen

  1. Verwendung kleinerer Musikschnipsel
  2. Verwendung komprimierterer/vereinfachterer Musikdarstellungen.

Verwendung kleinerer Musikschnipsel

Die Verwendung kleinerer Musikausschnitte ist besonders effektiv, wenn das Ergebnis, an dem wir interessiert sind, world ist, additionally für jeden Abschnitt des Songs gilt. Wir können beispielsweise davon ausgehen, dass das Style eines Titels im Laufe des Titels relativ stabil bleibt. Aus diesem Grund können wir für eine Style-Klassifizierungsaufgabe problemlos 10-Sekunden-Ausschnitte anstelle ganzer Titel (oder der sehr häufigen 30-Sekunden-Ausschnitte) verwenden.

Dies hat zwei Vorteile:

  1. Kürzere Snippets führen zu weniger Datenpunkten professional Trainingsbeispiel, sodass Sie kleinere Modelle verwenden können.
  2. Indem wir drei 10-Sekunden-Schnipsel anstelle eines 30-Sekunden-Schnipsels zeichnen, können wir die Anzahl der Trainingsbeobachtungen verdreifachen. Insgesamt bedeutet dies, dass wir weniger datenhungrige Modelle erstellen und ihnen gleichzeitig mehr Trainingsbeispiele als zuvor zuführen können.

Es gibt jedoch welche Hier gibt es zwei potenzielle Gefahren. Erstens muss die Snippet-Größe lang genug sein, damit eine Klassifizierung möglich ist. Beispielsweise haben selbst Menschen Schwierigkeiten mit der Style-Klassifizierung, wenn ihnen 3-Sekunden-Snippets präsentiert werden. Wir sollten die Snippet-Größe sorgfältig wählen und diese Entscheidung als Hyperparameter unserer KI-Lösung betrachten.

Zweitens, Nicht jedes musikalische Attribut ist world. Wenn ein Lied beispielsweise Gesang enthält, bedeutet das nicht, dass es keine Instrumentalabschnitte gibt. Wenn wir den Monitor in wirklich kurze Schnipsel zerschneiden würden, würden wir viele falsch beschriftete Beispiele in unseren Trainingsdatensatz einfügen.

Effizientere Musikdarstellungen verwenden

Wenn Sie vor zehn Jahren Musik-KI studiert haben (damals, als das Ganze noch „Music Data Retrieval“ hieß), haben Sie etwas über Chromagramme, MFCCs und Beat-Histogramme gelernt. Diese handgefertigten Funktionen wurden entwickelt, um Musikdaten mit traditionellen ML-Ansätzen kompatibel zu machen. Mit dem Aufkommen des Deep Studying könnte es so aussehen, als wären diese Funktionen vollständig durch (Mel)Spektrogramme ersetzt.

Spektrogramme komprimieren Musik ohne großen Informationsverlust in Bilder und machen sie so zu Bildern Ideally suited in Kombination mit Laptop-Imaginative and prescient-Modellen. Anstatt benutzerdefinierte Funktionen für verschiedene Aufgaben zu entwickeln, können wir jetzt für die meisten Musik-KI-Probleme dieselbe Eingabedatendarstellung und dasselbe Modell verwenden – vorausgesetzt, Sie verfügen über Zehntausende Trainingsbeispiele, mit denen Sie diese Modelle füttern können.

Wenn Daten knapp sind, wollen wir das tun Komprimieren Sie die Informationen so weit wie möglich um es dem Modell zu erleichtern, relevante Muster aus den Daten zu extrahieren. Betrachten Sie diese vier Musikdarstellungen unten und sagen Sie mir, welche Ihnen dabei hilft, die Tonart am schnellsten zu identifizieren.

Beispiele für vier verschiedene Darstellungen desselben Liedes („Honky Tonk Girl“ von Tina Turner). Obwohl das Chromagramm etwa 700 KB kleiner als die Wellenform ist, können wir die Tonart dadurch viel effektiver identifizieren (C#-Dur). Bild vom Autor erstellt.

Während Mel-Spektrogramme als Eingabe für wichtige Erkennungssysteme verwendet werden können (und das möglicherweise auch tun sollten, wenn Sie über genügend Daten verfügen), enthüllt ein einfaches Chromagramm, das entlang der Zeitdimension gemittelt wird, diese spezifischen Informationen viel schneller. Aus diesem Grund erfordern Spektrogramme komplexe Modelle wie CNNs, während ein Chromagramm leicht mit herkömmlichen Modellen wie logistischer Regression oder Entscheidungsbäumen analysiert werden kann.

Zusammenfassend, bleibt die etablierte Kombination aus Spektrogramm und CNN für viele Probleme hochwirksam, vorausgesetzt, Sie verfügen über genügend Daten. Bei kleineren Datensätzen kann es jedoch sinnvoll sein, einige Characteristic-Engineering-Techniken von MIR erneut zu verwenden oder eigene aufgabenspezifische Darstellungen zu entwickeln.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert