Die herausragende Leistung großer Sprachmodelle (LLMs) wie ChatGPT hat die Welt schockiert. Der Durchbruch wurde durch die Erfindung der Transformer-Architektur erzielt, die überraschend einfach und skalierbar ist. Sie basiert immer noch auf neuronalen Deep-Studying-Netzwerken. Die wichtigste Neuerung ist der sogenannte „Aufmerksamkeits“-Mechanismus, der jedes Wort-Token kontextualisiert. Darüber hinaus verleihen seine beispiellosen Parallelitäten LLMs enorme Skalierbarkeit und damit beeindruckende Genauigkeit nach dem Coaching mit Milliarden von Parametern.
Die Einfachheit, die die Transformer-Architektur gezeigt hat, ist tatsächlich mit der Turingmaschine vergleichbar. Der Unterschied besteht darin, dass die Turingmaschine steuert, was die Maschine in jedem Schritt tun kann. Der Transformer hingegen ist wie eine magische Blackbox, die durch Parameteroptimierungen aus riesigen Eingabedaten lernt. Forscher und Wissenschaftler sind immer noch sehr daran interessiert, sein Potenzial und seine theoretischen Implikationen für die Erforschung des menschlichen Geistes zu entdecken.
In diesem Artikel werden wir zunächst die vier Hauptmerkmale der Transformer-Architektur besprechen: Worteinbettung, Aufmerksamkeitsmechanismus, Einzelwortvorhersage und Generalisierungsfunktionen wie multimodale Erweiterung und übertragenes Lernen. Die Absicht besteht darin, sich darauf zu konzentrieren, warum die Architektur so effektiv ist, anstatt darauf, wie sie aufgebaut wird (wofür die Leser viele…