Große Sprachmodelle: Eine kurze Einführung | von Carolina Bento

Es gibt ein Akronym, das Sie in den letzten Jahren wahrscheinlich ununterbrochen gehört haben: LLM, was für Giant Language Mannequin steht.

In diesem Artikel werfen wir einen kurzen Blick darauf, was LLMs sind, warum sie eine äußerst spannende Technologie sind, warum sie für Sie und mich wichtig sind und warum Sie sich für LLMs interessieren sollten.

Hinweis: In diesem Artikel verwenden wir Giant Language Mannequin, LLM und Modell austauschbar.

A Großes Sprachmodellnormalerweise als LLM bezeichnet, da es ein bisschen wie ein Zungenbrecher ist, ist ein mathematisches Modell, das Textual content generiert, ähnlich wie das Ausfüllen der Lücke für das nächste Wort in einem Satz (1).

Zum Beispiel, wenn Sie ihm den Satz füttern Der schnelle Braunfuchs springt über den faulen ____es weiß nicht genau, was das nächste Wort ist Hund. Stattdessen erzeugt das Modell eine Liste möglicher nächster Wörter mit ihrer entsprechenden Wahrscheinlichkeit kommt als nächstes in einem Satz, der mit genau diesen Wörtern beginnt.

Beispiel für die Vorhersage des nächsten Wortes in einem Satz. Bild vom Autor.

Der Grund, warum LLMs das nächste Wort in einem Satz so intestine vorhersagen können, liegt darin, dass sie mit einer unglaublich großen Textmenge trainiert werden, die normalerweise aus dem Web stammt. Wenn additionally zufällig ein Mannequin den Textual content in diesem Artikel aufnimmt, hallo 👋

Wenn Sie andererseits ein LLM erstellen, das beispielsweise spezifisch für eine bestimmte Domäne ist, erstellen Sie einen Chatbot, der mit Ihnen kommunizieren kann, als wäre er eine Figur darin Shakespeares Im Web wird es sicherlich viele Ausschnitte oder sogar sein Gesamtwerk geben, aber es wird eine Menge anderer Texte geben, die für die jeweilige Aufgabe nicht related sind. In diesem Fall würden Sie dem LLM nur den Shakespeare-Kontext, additionally alle seine Theaterstücke und Sonette, in den Chatbot einspeisen.

Obwohl LLMs mit einer gigantischen Datenmenge trainiert werden, ist das nicht das, was sie tun Groß steht in Giant Language Fashions für. Neben der Größe der Trainingsdaten besteht die andere große Größe dieser Modelle in der Anzahl der Parameter, die sie haben und die jeweils die Möglichkeit haben, angepasst, additionally optimiert zu werden.

Die einfachsten statistischen Modelle sind Einfache lineare Regressionmit nur zwei Parametern, der Steigung und dem Achsenabschnitt. Und selbst mit nur zwei Parametern kann die Modellausgabe einige unterschiedliche Formen annehmen.

Verschiedene Formen einer linearen Regression. Bild vom Autor.

Zum Vergleich: Als GPT-3 im Jahr 2020 veröffentlicht wurde, hatte es 175B Parameter, ja Milliarden!(3) Während LLaMa, Metas Open-Supply-LLM, eine Reihe verschiedener Modelle hatte, die von 7B bis 65B Parametern reichten veröffentlicht im Jahr 2023.

Diese Milliarden von Parametern beginnen alle mit Zufallswerten, zu Beginn des Trainingsprozesses und während des Trainings Backpropagation Teil der Trainingsphase ist es, dass sie kontinuierlich optimiert und angepasst werden.

Ähnlich wie bei jedem anderen Modell für maschinelles Lernen wird während der Trainingsphase die Ausgabe des Modells mit dem tatsächlich erwarteten Wert für die Ausgabe verglichen, um den Fehler zu berechnen. Wenn noch Raum für Verbesserungen besteht, stellt Backpropagation sicher, dass die Modellparameter so angepasst werden, dass das Modell beim nächsten Mal Werte mit etwas weniger Fehler vorhersagen kann.

Aber das ist genau das, was man nennt Vorschulungwo das Modell in der Lage ist, das nächste Wort in einem Satz vorherzusagen.

Damit das Modell wirklich gute Interaktionen mit einem Menschen hat, bis zu dem Punkt, dass Sie – der Mensch – dem Chatbot eine Frage stellen können und seine Antwort strukturell korrekt erscheint, muss das zugrunde liegende LLM einen Schritt durchlaufen Verstärkungslernen mit menschlichem Suggestions. Das ist im wahrsten Sinne des Wortes Mensch auf dem Laufenden worüber oft im Zusammenhang mit Modellen des maschinellen Lernens gesprochen wird.

In dieser Section markieren Menschen Vorhersagen, die nicht so intestine sind. Durch die Berücksichtigung dieses Feedbacks werden die Modellparameter aktualisiert und das Modell so oft wie nötig erneut trainiert, um das gewünschte Niveau der Vorhersagequalität zu erreichen.

Mittlerweile ist klar, dass diese Modelle äußerst komplex sind und in der Lage sein müssen, Millionen, wenn nicht Milliarden von Berechnungen durchzuführen. Diese hochintensive Berechnung erforderte neuartige Architekturen auf Modellebene Transformatoren und zum Berechnen, mit GPUs.

GPU ist diese Klasse von Grafikprozessoren, die in Szenarien verwendet werden, in denen Sie eine unglaublich große Anzahl von Berechnungen in kurzer Zeit durchführen müssen, beispielsweise beim reibungslosen Rendern von Charakteren in einem Videospiel. Im Vergleich zum Traditionellen CPUs GPUs, die Sie in Ihrem Laptop computer oder Tower-PC finden, sind in der Lage, viele parallele Berechnungen mühelos auszuführen.

Der Durchbruch für LLMs gelang, als Forscher erkannten, dass GPUs auch auf nichtgrafische Probleme angewendet werden können. Sowohl maschinelles Lernen als auch Computergrafik basieren auf linearer Algebra und führen Operationen auf Matrizen aus. Daher profitieren beide von der Möglichkeit, viele parallele Berechnungen auszuführen.

Transformers ist eine von Google entwickelte neue Artwork von Architektur, die es ermöglicht, dass jede während des Modelltrainings durchgeführte Operation parallelisiert werden kann. Bei der Vorhersage des nächsten Wortes in einem Satz ist dies beispielsweise bei einem Modell, das eine Transformer-Architektur verwendet, nicht erforderlich lesen Der Satz wird vom Anfang bis zum Ende gelesen und der gesamte Textual content gleichzeitig und parallel verarbeitet. Es verknüpft jedes verarbeitete Wort mit einer langen Reihe von Zahlen, die diesem Wort eine Bedeutung verleihen. Denken Sie noch einmal kurz über die lineare Algebra nach: Anstatt jeweils einen Datenpunkt zu verarbeiten und zu transformieren, kann die Kombination aus Transformern und GPUs mithilfe von Matrizen Tonnen von Punkten gleichzeitig verarbeiten.

Was Transformers neben der parallelisierten Berechnung auszeichnet, ist eine einzigartige Operation namens Consideration. Auf sehr vereinfachte Weise ermöglicht Consideration es, den gesamten Kontext um ein Wort herum zu betrachten, selbst wenn es in verschiedenen Sätzen wie z. B. mehrmals vorkommt

Am Ende der Present verbeugte sich die Sängerin mehrmals.

Jack wollte in den Laden gehen, um einen neuen Bogen für die Schießübungen zu kaufen.

Wenn wir uns auf das Wort konzentrieren Bogenkönnen Sie sehen, dass der Kontext, in dem dieses Wort in jedem Satz auftaucht, und seine tatsächliche Bedeutung sehr unterschiedlich sind.

Aufmerksamkeit ermöglicht es dem Modell, die Bedeutung, die jedes Wort kodiert, basierend auf dem Kontext um es herum zu verfeinern.

Dies und einige zusätzliche Schritte wie Coaching a Feedforward-Neuronales Netzwerkalles mehrmals durchgeführt, sorgen dafür, dass das Modell seine Fähigkeit, die richtigen Informationen zu kodieren, schrittweise verfeinert. Alle diese Schritte sollen das Modell genauer machen und die Bedeutung nicht verwechseln Bogender Antrag und Bogen (Objekt im Zusammenhang mit Bogenschießen), wenn eine Vorhersageaufgabe ausgeführt wird.

Ein grundlegendes Flussdiagramm, das verschiedene Phasen von LLMs von der Vorschulung bis zur Aufforderung/Nutzung darstellt. Das Auffordern von LLMs zur Generierung von Antworten ist in verschiedenen Trainingsphasen möglich, z. B. vor dem Coaching, bei der Anweisungsabstimmung oder bei der Ausrichtungsabstimmung. „RL“ steht für Reinforcement Studying, „RM“ für Belohnungsmodellierung und „RLHF“ für Reinforcement Studying mit menschlichem Suggestions. Bild und Bildunterschrift stammen aus dem Artikel, auf den in (2) verwiesen wird.

Die Entwicklung von Transformern und GPUs ermöglichte eine explosionsartige Zunahme der Nutzung und Anwendung von LLMs im Vergleich zu früheren Sprachmodellen, die jeweils ein Wort lesen mussten. Wenn man weiß, dass ein Modell umso besser wird, je mehr Qualitätsdaten es lernt, kann man erkennen, dass die Verarbeitung eines Wortes nach dem anderen einen großen Engpass darstellt.

Mit der beschriebenen Fähigkeit, dass LLMs enorme Mengen an Textbeispielen verarbeiten und dann mit hoher Genauigkeit das nächste Wort in einem Satz vorhersagen können, wurden in Kombination mit anderen leistungsstarken Frameworks für künstliche Intelligenz viele Aufgaben zur natürlichen Sprache und zum Informationsabruf viel einfacher implementieren Und produzieren.

Im Wesentlichen, Giant Language Fashions (LLMs) haben sich zu hochmodernen Systemen der künstlichen Intelligenz entwickelt, die Texte mit kohärenter Kommunikation verarbeiten und generieren und mehrere Aufgaben verallgemeinern können(2).

Denken Sie an Aufgaben wie die Übersetzung vom Englischen ins Spanische, das Zusammenfassen einer Reihe von Dokumenten, das Identifizieren bestimmter Passagen in Dokumenten oder die Beantwortung Ihrer Fragen zu einem bestimmten Thema durch einen Chatbot.

Diese Aufgaben waren früher möglich, aber der Aufwand zum Aufbau eines Modells conflict unglaublich höher und die Verbesserungsrate dieser Modelle conflict aufgrund von Technologieengpässen viel langsamer. LLMs kamen hinzu und beschleunigten all diese Aufgaben und Anwendungen.

Sie haben wahrscheinlich bereits mit Produkten interagiert oder gesehen, wie jemand direkt mit Produkten interagiert hat, deren Kernstück LLMs sind.

Diese Produkte sind viel mehr als ein einfaches LLM, das das nächste Wort in einem Satz genau vorhersagt. Sie nutzen LLMs und andere Techniken und Frameworks des maschinellen Lernens, um zu verstehen, was Sie fragen, durchsuchen alle Kontextinformationen, die sie bisher gesehen haben, und präsentieren Ihnen eine menschenähnliche und meist kohärente Antwort. Oder zumindest geben einige Hinweise, worauf man als Nächstes achten sollte.

Es gibt unzählige Produkte der künstlichen Intelligenz (KI), die LLMs von Fb nutzen Meta-KIGoogles ZwillingeOffene KIs ChatGPTdas seinen Namen von der Generative Pre-trained Transformer-Technologie unter der Haube von Microsoft entlehnt hat Kopilotneben vielen, vielen anderen, die ein breites Spektrum an Aufgaben abdecken, die Sie unterstützen.

Vor ein paar Wochen habe ich mich zum Beispiel gefragt, wie viele Studioalben es gibt Incubus hatte freigelassen. Vor sechs Monaten würde ich es wahrscheinlich googeln oder direkt zu Wikipedia gehen. Heutzutage neige ich dazu, zu fragen Zwillinge.

Beispiel einer Frage, die ich Gemini gestellt habe 🤣 Bild vom Autor.

Dies ist nur ein vereinfachtes Beispiel. Es gibt viele andere Arten von Fragen oder Aufforderungen, die Sie diesen Produkten für künstliche Intelligenz bereitstellen können, z. B. die Bitte, einen bestimmten Textual content oder ein bestimmtes Dokument zusammenzufassen, oder wenn Sie wie ich nach Melbourne reisen und nach Empfehlungen fragen, was zu tun ist Dort.

Es kam direkt auf den Punkt, gab mir eine Reihe von Hinweisen, was ich tun sollte, und dann machte ich mich auf den Weg zu den Rennen, wo ich mich etwas weiter mit bestimmten Orten befassen konnte, die mir interessanter erschienen.

Sie können sehen, wie ich dadurch eine Menge Zeit gespart habe, die ich wahrscheinlich zwischen Yelp- und TripAdvisor-Bewertungen, Youtube-Movies oder Blogposts über berühmte und empfohlene Orte in Melbourne verbringen müsste.

LMMs sind zweifellos ein junges Forschungsgebiet, das sich rasant weiterentwickelt, wie Sie der folgenden Zeitleiste entnehmen können.

Chronologische Anzeige der LLM-Releases: Blaue Karten stehen für „vorab trainierte“ Modelle, während orangefarbene Karten für „anweisungsabgestimmte“ Modelle stehen. Modelle in der oberen Hälfte stehen für Open-Supply-Verfügbarkeit, während es sich bei den Modellen in der unteren Hälfte um Closed-Supply-Verfügbarkeit handelt. Das Diagramm veranschaulicht den zunehmenden Pattern zu anweisungsgesteuerten und Open-Supply-Modellen und verdeutlicht die sich entwickelnde Landschaft und Tendencies in der Forschung zur Verarbeitung natürlicher Sprache. Bild und Bildunterschrift stammen aus dem Artikel, auf den in (2) verwiesen wird.

Wir stehen erst am Anfang der Produktisierung bzw. Produktanwendung. Immer mehr Unternehmen wenden LLMs auf ihre Fachgebiete an, um Aufgaben zu rationalisieren, die mehrere Jahre und unglaubliche Mittel für Forschung, Entwicklung und Markteinführung erfordern würden.

Bei ethischer und verbraucherbewusster Anwendung bieten LLMs und Produkte, deren Kernstück LLMs sind, eine enorme Probability für alle. Für Forscher ist es ein hochmodernes Gebiet mit einer Fülle theoretischer und praktischer Probleme, die es zu lösen gilt.

Beispielsweise werden in der Genomik gLMs oder genomische Sprachmodelle, d. h. auf DNA-Sequenzen trainierte große Sprachmodelle, verwendet, um unser allgemeines Verständnis von Genomen und der Funktionsweise und Interaktion der DNA mit anderen Funktionen zu verbessern (4). Dies sind große Fragen, auf die Wissenschaftler keine endgültigen Antworten haben, aber LLMs erweisen sich als Werkzeug, das ihnen helfen kann, in viel größerem Maßstab Fortschritte zu erzielen und ihre Erkenntnisse viel schneller zu wiederholen. Um in der Wissenschaft stetig voranzukommen, sind schnelle Rückkopplungsschleifen entscheidend.

Für Unternehmen gibt es einen gewaltigen Wandel und die Probability, mehr für die Kunden zu tun, sich stärker mit ihren Problemen und Schwachstellen auseinanderzusetzen und es den Kunden dadurch leichter zu machen, den Wert der Produkte zu erkennen. Sei es aus Gründen der Effektivität, der Benutzerfreundlichkeit, der Kosten oder aus all dem oben genannten.

Für Verbraucher können wir Produkte und Instruments erleben, die uns bei alltäglichen Aufgaben unterstützen, die uns dabei helfen, unsere Arbeit ein wenig besser zu erledigen, schnelleren Zugang zu Wissen zu erhalten oder Hinweise darauf zu erhalten, wo wir danach suchen und tiefer graben können Info.

Das Spannendste an mir ist für mich die Geschwindigkeit, mit der sich diese Produkte weiterentwickeln und veralten. Ich persönlich bin gespannt, wie diese Produkte in den nächsten 5 Jahren aussehen und wie sie genauer und zuverlässiger werden können.

Große Sprachmodelle: Eine kurze Einführung | von Carolina Bento | Januar 2025

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Alles über Open AIs neueste GPT 4.1 -Familie

Nvidia zur Herstellung von KI -Supercomputern in uns

Skapa Webbappar Utan Koding Med Deepsite

Die Zukunft von Datentechnik und Datenpipelines in der KI -Ära

About

Categories

Tags

Recent Post

Alles über Open AIs neueste GPT 4.1 -Familie

Nvidia zur Herstellung von KI -Supercomputern in uns

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt