of the Universe (hergestellt von einem der berühmtesten Sänger aller Zeiten) sagt Folgendes:

Ich wünschte, ich könnte zurückgehen
Und diese Jahre verändern
Ich erlebe Veränderungen

Black Sabbath – Änderungen

Dieses Lied ist unglaublich kraftvoll und erzählt davon, wie sich das Leben direkt vor Ihren Augen so schnell verändern kann.

In diesem Lied geht es um ein gebrochenes Herz und eine Liebesgeschichte. Es erinnert mich jedoch auch an viele Veränderungen, die mein Job als Knowledge Scientist in den letzten 10 Jahren meiner Karriere durchgemacht hat:

  • Als ich anfing, Physik zu studieren, dachte ich nur an Optimus Prime, wenn jemand „Transformer“ sagte. Für mich drehte sich alles um maschinelles Lernen Lineare Regression, SVM, Random Forest usw… (2016)
  • Als ich meinen Grasp in Massive Knowledge und Physik komplexer Systeme machte, hörte ich zum ersten Mal von „BERT“ und verschiedene Deep-Studying-Technologien, die damals sehr vielversprechend schienen. Die ersten GPT-Modelle kamen heraus und sie sahen sehr interessant aus, auch wenn niemand erwartet hatte, dass sie so leistungsfähig wären wie heute. (2018-2020)
  • Schneller Vorlauf zu meinem Leben als Vollzeit-Datenwissenschaftler. Wenn Sie heute nicht wissen, wofür GPT steht, und es noch nie gelesen haben „Aufmerksamkeit ist alles, was Sie brauchen“ Ihre Chancen, ein Vorstellungsgespräch im Bereich Knowledge Science System Design zu bestehen, sind sehr gering. (2021 – heute)

Wenn Leute behaupten, dass sich die Werkzeuge und der Alltag einer Particular person, die mit Daten arbeitet, erheblich von der vor 10 (oder sogar 5) Jahren unterscheidet, stimme ich voll und ganz zu. Was Ich stimme nicht zu Damit verbunden ist die Idee, dass die in der Vergangenheit verwendeten Instruments gelöscht werden sollten, nur weil jetzt alles mit GPT, LLMs oder Agentic AI lösbar zu sein scheint.

Das Ziel dieses Artikels ist es, eine einzelne Aufgabe zu betrachten, nämlich Klassifizierung der Liebes-/Hass-/neutralen Absicht eines Tweets. Insbesondere werden wir es mit tun traditionelles maschinelles Lernen, Deep Studying, Und Große Sprachmodelle.

Wir werden dies praxisnah mit Python durchführen und beschreiben, warum und wann die einzelnen Ansätze verwendet werden sollten. Hoffentlich erfahren Sie nach diesem Artikel:

  1. Der Werkzeuge Die in den frühen Tagen verwendeten Methoden sollten dennoch berücksichtigt, studiert und manchmal übernommen werden.
  2. Latenz, Genauigkeit und Kosten sollte bei der Auswahl des besten Algorithmus für Ihren Anwendungsfall evaluiert werden
  3. Änderungen in der Welt der Knowledge Scientists sind notwendig und sollten ohne Angst angenommen werden 🙂

Fangen wir an!

1. Der Anwendungsfall

Der Fall, mit dem wir uns befassen, ist etwas, das in Knowledge Science/KI-Anwendungen tatsächlich sehr verbreitet ist: Stimmungsanalyse. Das bedeutet, dass wir aus einem gegebenen Textual content das „Gefühl“ hinter dem Autor dieses Textes extrapolieren möchten. Dies ist sehr nützlich, wenn Sie das Suggestions zu einer bestimmten Rezension eines Objekts, eines Movies, eines von Ihnen empfohlenen Artikels usw. einholen möchten.

In diesem Blogbeitrag verwenden wir ein sehr „berühmtes“ Beispiel einer Sentimentanalyse: was das Gefühl hinter einem Tweet klassifiziert. Da ich mehr Kontrolle wollte, werden wir nicht mit organischen Tweets arbeiten, die aus dem Web stammen (wo die Bezeichnungen unsicher sind). Stattdessen verwenden wir Inhalte, die von generiert wurden Große Sprachmodelle das wir kontrollieren können.

Diese Technik ermöglicht es uns auch, den Schwierigkeitsgrad und die Vielfalt des Issues abzustimmen und zu beobachten, wie verschiedene Techniken reagieren.

  • Einfacher Fall: Die Liebes-Tweets klingen wie Postkarten, die Hass-Tweets sind unverblümt und die neutralen Nachrichten handeln von Wetter und Kaffee. Wenn ein Modell hier Probleme hat, stimmt etwas anderes nicht.
  • Schwierigerer Fall: immer noch Liebe, Hass, impartial, aber jetzt bringen wir Sarkasmus, gemischte Töne und subtile Hinweise ein, die Aufmerksamkeit auf den Kontext erfordern. Wir haben auch weniger Daten, um einen kleineren Datensatz zum Trainieren zu haben.
  • Additional harter Koffer: Wir gehen zu fünf Emotionen über: Liebe, Hass, Wut, Ekel, Neid, daher muss das Modell umfangreichere, vielschichtigere Sätze analysieren. Darüber hinaus haben wir 0 Einträge zum Trainieren der Daten: Wir können kein Coaching durchführen.

Ich habe die Daten generiert und jede der Dateien in einem bestimmten öffentlichen Ordner abgelegt GitHub-Ordner Ich habe für dieses Projekt erstellt (Daten).

Unser Ziel ist es, ein intelligentes Klassifizierungssystem aufzubauen, das dies effizient erfassen kann Gefühl hinter den Tweets. Aber wie machen wir das? Lass es uns herausfinden.

2. Systemdesign

Ein Bild, dessen Betrachtung immer äußerst hilfreich ist, ist das Folgende:

Bild vom Autor erstellt

Genauigkeit, kostenUnd Skala bilden in einem maschinellen Lernsystem ein Dreieck. Sie können nur zwei gleichzeitig vollständig optimieren.

Sie können ein sehr genaues Modell haben, das sich sehr intestine mit Millionen von Einträgen skalieren lässt, aber es wird nicht schnell sein. Sie können ein schnelles Modell haben, das mit Millionen von Einträgen skaliert, aber es wird nicht so genau sein. Sie können ein genaues und schnelles Modell erhalten, aber es lässt sich nicht sehr intestine skalieren.

Diese Überlegungen werden vom konkreten Downside abstrahiert, helfen aber dabei, welches ML-Systemdesign erstellt werden soll. Wir werden darauf zurückkommen.

Außerdem sollte die Leistung unseres Modells proportional zur Größe unseres Trainingssatzes sein. Im Allgemeinen versuchen wir zu vermeiden, dass der Trainingssatzfehler auf Kosten einer Erhöhung des Testsatzes (der berühmten) abnimmt Überanpassung).

Bild vom Autor erstellt

Wir wollen nicht im Bereich der Unter- oder Überanpassung liegen. Lassen Sie mich erklären, warum.

Vereinfacht ausgedrückt liegt eine Unteranpassung vor, wenn Ihr Modell zu einfach ist, um das tatsächliche Muster in Ihren Daten zu erkennen. Es ist, als würde man versuchen, eine gerade Linie durch eine Spirale zu zeichnen. Überanpassung ist das Gegenteil. Das Modell lernt die Trainingsdaten, einschließlich des gesamten Rauschens, zu intestine, sodass es bei bereits gesehenen Daten intestine abschneidet, bei neuen Daten jedoch schlecht. Der Candy Spot ist der Mittelweg, bei dem Ihr Modell die Struktur versteht, ohne sie sich zu merken.

Auch hierauf kommen wir zurück.

3. Einfacher Fall: Traditionelles maschinelles Lernen

Wir beginnen mit dem freundlichsten Szenario: einem hochstrukturierten Datensatz von 1.000 Tweets, die wir generiert und gekennzeichnet haben. Die drei Klassen (positiv, impartial, negativ) sind absichtlich ausbalanciert, die Sprache ist sehr explizit und jede Zeile befindet sich in einer sauberen CSV-Datei.

Beginnen wir mit einem einfachen Import-Codeblock.

Mal sehen, wie der Datensatz aussieht:

Bild vom Autor erstellt

Nun gehen wir davon aus, dass dies der Fall ist wird nicht skaliert für Millionen von Zeilen (da der Datensatz zu strukturiert ist, um vielfältig zu sein). Wir können jedoch eine sehr schnelle und genaue Methode für diesen kleinen und spezifischen Anwendungsfall entwickeln. Beginnen wir mit der Modellierung. Drei Hauptpunkte, die es zu beachten gilt:

  1. Wir machen es Zug-/Testaufteilung mit 20 % des Datensatzes im Testsatz.
  2. Wir werden a verwenden TF-IDF Ansatz, um die Einbettungen der Wörter zu erhalten. TF-IDF steht für Time period Frequency–Inverse Doc Frequency. Dabei handelt es sich um eine klassische Technik, die Textual content in Zahlen umwandelt, indem jedem Wort eine Gewichtung zugewiesen wird, die darauf basiert, wie wichtig es in einem Dokument im Vergleich zum gesamten Datensatz ist.
  3. Wir werden diese Technik mit zwei ML-Modellen kombinieren: Logistische Regression Und Unterstützen Sie Vektormaschinenaus scikit-lernen. Die logistische Regression ist einfach und interpretierbar und wird häufig als solide Grundlage für die Textklassifizierung verwendet. Assist Vector Machines konzentrieren sich darauf, die beste Grenze zwischen Klassen zu finden und funktionieren normalerweise sehr intestine, wenn die Daten nicht zu verrauscht sind.

Und die Leistung ist bei beiden Modellen im Grunde perfekt.

Bild vom Autor erstellt

In diesem sehr einfachen Fall, in dem wir über einen konsistenten Datensatz mit 1.000 Zeilen verfügen, ist ein herkömmlicher Ansatz ausreichend. Es sind keine Milliarden von Parametermodellen wie GPT erforderlich.

4. Harter Fall: Deep Studying

Der zweite Datensatz ist immer noch synthetisch, soll aber absichtlich stören. Die Etiketten bleiben Liebe, Hass und impartial, doch die Tweets basieren auf Sarkasmus, gemischtem Ton und hinterhältigen Komplimenten. Darüber hinaus ist der Trainingspool kleiner, während der Validierungsanteil groß bleibt, sodass die Modelle mit weniger Beweisen und mehr Mehrdeutigkeit arbeiten.

Jetzt, da wir diese Unklarheit haben, müssen wir die größeren Geschütze herausnehmen. Es gibt Deep-Studying-Einbettungsmodelle, die eine hohe Genauigkeit beibehalten und sich in diesen Fällen dennoch intestine skalieren lassen (denken Sie an das Dreieck und das Fehler-Komplexitäts-Diagramm!). Insbesondere lernen Deep-Studying-Einbettungsmodelle die Bedeutung von Wörtern aus ihrem Kontext, anstatt sie als isolierte Token zu behandeln.

Für diesen Blogbeitrag verwenden wir BERTeines der bekanntesten Einbettungsmodelle überhaupt. Importieren wir zunächst einige Bibliotheken:

… und einige Helfer.

Dank dieser Funktionen können wir unser Einbettungsmodell schnell im Vergleich zum TF-IDF-Ansatz bewerten.

Bild vom Autor erstellt

Wie wir sehen können, ist das TF-IDF-Modell bei den positiven Etiketten extrem leistungsschwach, während es bei Verwendung des Einbettungsmodells (BERT) eine hohe Genauigkeit beibehält.

5. Additional harter Fall: LLM Agent

Okay, jetzt machen wir es SEHR schwierig:

  1. Wir haben nur 100 Reihen.
  2. Wir gehen davon aus Wir kennen die Etiketten nichtwas bedeutet, dass wir kein Modell für maschinelles Lernen trainieren können.
  3. Wir haben fünf Schlagworte: Neid, Hass, Liebe, Ekel, Wut.

Da wir nichts trainieren können, unsere Klassifizierung aber dennoch durchführen möchten, müssen wir eine Methode anwenden, die die Klassifizierungen irgendwie bereits enthält. Große Sprachmodelle sind das beste Beispiel für eine solche Methode.

Beachten Sie, dass die Verwendung von LLMs für die anderen beiden Fälle so wäre, als würde man eine Fliege mit einer Kanone abschießen. Aber hier macht es durchaus Sinn: Die Aufgabe ist eine Herausforderung und wir haben keine Möglichkeit, irgendetwas Intelligentes zu tun, weil wir unser Modell nicht trainieren können (wir haben nicht den Trainingssatz).

In diesem Fall verfügen wir über Genauigkeit im großen Maßstab. Allerdings benötigt die API etwas Zeit, sodass wir ein bis zwei Sekunden warten müssen, bis die Antwort zurückkommt (Denken Sie an das Dreieck!).

Lassen Sie uns einige Bibliotheken importieren:

Und das ist der Klassifizierungs-API-Aufruf:

Und wir können sehen, dass das LLM eine erstaunliche Klassifizierungsarbeit leistet:

6. Schlussfolgerungen

Im letzten Jahrzehnt hat sich die Rolle des Datenwissenschaftlers ebenso dramatisch verändert wie die Technologie selbst. Dies könnte zu der Idee führen, einfach die leistungsstärksten verfügbaren Instruments zu verwenden, aber das ist in vielen Fällen NICHT der beste Weg.

Anstatt zuerst nach dem größten Modell zu greifen, haben wir ein Downside anhand einer einfachen Linse getestet: Genauigkeit, Latenz und Kosten.

Insbesondere haben wir Schritt für Schritt Folgendes getan:

  • Wir haben unseren Anwendungsfall als Tweet-Sentiment-Klassifizierung definiert, mit dem Ziel, Liebe, Hass oder neutrale Absichten zu erkennen. Wir haben drei Datensätze mit zunehmendem Schwierigkeitsgrad entworfen: einen sauberen, einen sarkastischen und einen ohne Coaching.
  • Wir haben den einfachen Fall mithilfe von TF-IDF mit logistischer Regression und SVM angegangen. Die Tweets waren klar und direkt und beide Modelle schnitten nahezu perfekt ab.
  • Wir gingen zum schwierigen Fall über, wo Sarkasmus, gemischter Ton und subtiler Kontext die Aufgabe komplexer machten. Wir haben BERT-Einbettungen verwendet, um die Bedeutung einzelner Wörter zu erfassen.
  • Schließlich haben wir für den besonders schwierigen Fall ohne Trainingsdaten ein großes Sprachmodell verwendet, um Emotionen direkt durch Zero-Shot-Lernen zu klassifizieren.

Jeder Schritt zeigte, wie das richtige Werkzeug vom Downside abhängt. Traditionelles ML ist schnell und zuverlässig, wenn die Daten strukturiert sind. Deep-Studying-Modelle helfen, wenn sich die Bedeutung zwischen den Zeilen verbirgt. LLMs sind leistungsstark, wenn Sie keine Bezeichnungen haben oder eine umfassende Verallgemeinerung benötigen.

7. Bevor Sie losfahren!

Nochmals vielen Dank für Ihre Zeit. Es bedeutet viel ❤️

Mein Identify ist Piero Paialunga und ich bin dieser Typ hier:

Bild vom Autor erstellt

Ich komme ursprünglich aus Italien und habe einen Doktortitel. aus dem Universität von Cincinnatiund arbeite als Datenwissenschaftler bei The Commerce Desk in New York Metropolis. Ich schreibe darüber KI, maschinelles Lernen und die sich entwickelnde Rolle von Datenwissenschaftlern sowohl hier auf TDS als auch auf LinkedIn. Wenn Ihnen der Artikel gefallen hat und Sie mehr über maschinelles Lernen erfahren und meine Studien verfolgen möchten, können Sie:

A. Folge mir weiter Linkedinwo ich alle meine Geschichten veröffentliche
B. Folge mir weiter GitHubwo Sie meinen gesamten Code sehen können
C. Bei Fragen können Sie mir eine E-Mail senden an piero.paialunga@hotmail

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert