7 beliebte LLMs (GPT, Bert, Lama & More)
Bild von Autor | Leinwand

Wir verwenden große Sprachmodelle in vielen unserer täglichen Aufgaben. Diese Modelle wurden in Milliarden von On-line-Dokumenten und verschiedenen Datensätzen geschult, wodurch sie in der Lage sind, in menschlicher Sprache zu verstehen, zu verstehen und zu reagieren. Es werden jedoch nicht alle LLMs auf die gleiche Weise erstellt. Während die Kernidee ähnlich bleibt, Sie unterscheiden sich in ihren zugrunde liegenden Architekturen und diese Variationen haben erhebliche Auswirkungen auf ihre Fähigkeiten. Wie bei verschiedenen Benchmarks zu sehen ist Deepseek beispielsweise bei der Argumentation von Aufgaben hervorgeht, spielt Claude intestine in der Codierung und Chatgpt sticht im kreativen Schreiben auf.

In diesem Artikel werde ich Sie durch 7 beliebte LLM -Architekturen führen, um Ihnen einen klaren Überblick zu geben, alles in ebenso vielen Minuten. Additionally fangen wir an.

1. Bert

Papierverbindung: https://arxiv.org/pdf/1810.04805
Bert wurde 2018 von Google entwickelt und markierte eine signifikante Verschiebung des Verständnisses der natürlichen Sprache, indem er eine tiefe bidirektionale Aufmerksamkeit in die Sprachmodellierung einführte. Im Gegensatz zu früheren Modellen, die Textual content hyperlinks nach rechts oder nach rechts nach hyperlinks lesen, verwendet Bert einen Transformator-Encoder, um beide Richtungen gleichzeitig zu berücksichtigen. Es wird unter Verwendung von zwei Aufgaben trainiert: maskierte Sprachmodellierung (Vorhersage zufällig maskierter Wörter) und Vorhersage des nächsten Sentenz (festzustellen, ob ein Satz logisch einem anderen folgt). Architektonisch ist Bert in zwei Größen erhältlich: Bert -Foundation (12 Schichten, 110 m Parameter) und Bert Massive (24 Schichten, 340 m Parameter). Die Struktur hängt ausschließlich auf Encoder -Stapeln ab und enthält spezielle Token wie (CLS) den vollen Satz darstellen und (Sep) zwei Sätze trennen. Sie können es für Aufgaben wie Stimmungsanalyse, Beantwortung von Fragen (wie Kader) und mehr feinstimmen. Es battle die erste seiner Artwork, die die volle Bedeutung von Sätzen wirklich verstanden hat.

2. GPT

Papierverbindung (GPT 4): https://arxiv.org/pdf/2303.08774
Die Familie GPT (Generative PreArained Transformator) wurde von OpenAI eingeführt. Die Serie begann mit GPT-1 im Jahr 2018 und hat sich bis 2023 zu GPT-4 entwickelt. Die neueste Model GPT-4O, die im Mai 2024 veröffentlicht wurde und multimodale Funktionen zeigt und sowohl Textual content als auch Bilder bearbeitet. Sie werden in sehr großen Textkorpora mit einem Normal-Modellierungsziel für die nächsten Vorhersage von Subsequent-Token Prediction ausgebildet: Bei jedem Schritt prognostiziert das Modell das nächste Wort in einer Sequenz mit allen vorherigen Wörtern. Nach dieser unbeaufsichtigten Vorausbildung kann dasselbe Modell bei bestimmten Aufgaben fein abgestimmt werden oder mit minimalen zusätzlichen Parametern auf Null-/wenige Shot-Weise verwendet werden. Das Decoder-Design bedeutet, dass GPT im Gegensatz zu Berts bidirektionalem Encoder nur zuvor an früheren Token teilnimmt. Was bei der Einführung bemerkenswert battle, battle die schiere Skala und Fähigkeit von GPT: Als jede aufeinanderfolgende Era (GPT-2, GPT-3) größer wurde, zeigte das Modell eine sehr fließende Textgenerierung und nur wenige Lernfähigkeiten, die die Schaffung der Lernfähigkeit des Modells zeigten, um die Festlegung des Modells „Pre-Prepare und Eingabeaufforderung/Feinabstimmung“ Paradigma für große Sprachmodelle. Sie sind jedoch proprietär, wobei der Zugang typischerweise über APIs bereitgestellt wird, und ihre genauen Architekturen, insbesondere für jüngste Versionen, sind nicht vollständig offengelegt.

3. Lama

Lama 4 Weblog -Hyperlink: https://ai.meta.com/weblog/llama-4-multimodal-intelligence/
Paper Hyperlink (Lama 3): https://arxiv.org/abs/2407.21783
LLAMA, entwickelt von Meta AI und erstmals im Februar 2023 veröffentlicht, ist eine Familie von Open-Supply-Decoder-Transformatormodellen. Es reicht von 7 bis 70 Milliarden Parametern, wobei die neueste Model, LLAMA 4, die im April 2025 veröffentlicht wurde. Wie GPT, verwendet LLAMA eine nur Transformator-Decoder-Architektur (jedes Modell ist ein autoregressiver Transformator), aber mit einigen architektonischen Töglichkeiten. Beispielsweise verwendeten die ursprünglichen Lama -Modelle die Swiglu -Aktivierung anstelle von Gelu, Rotationspositionseinbettungen (Seil) anstelle von festen und anstelle der Schichtnorm. Die Lama-Familie wurde in mehreren Größen von 7B bis 65B Parametern in LLAMA1 veröffentlicht, später in Llama3 noch größer, um groß angelegte Modelle zugänglicher zu machen. Insbesondere trotz relativ bescheidener Parameterzahlen haben diese Modelle wettbewerbsfähig mit viel größeren Zeitgenossen durchgeführt: Meta berichtete, dass das 13B-Modell von Llama OpenAs 175B GPT-3 auf vielen Benchmarks übertraf, und sein 65B. Lamas offene (obwohl erforschungsbeschränkte) Veröffentlichung brachte eine umfassende Nutzung der Gemeinschaft hervor; Die wichtigste Neuheit bestand darin, ein effizientes Coaching im Maßstab mit offenerem Zugang zu Modellgewichten zu kombinieren.

4. Palm

Palm 2 Technischer Bericht: https://arxiv.org/abs/2305.10403
Papierverbindung (Palm): https://arxiv.org/pdf/2204.02311
Palm (Pathways -Sprachmodell) ist eine Reihe von großsprachigen Modellen, die von Google Analysis entwickelt wurden. Die ursprüngliche Palme (angekündigt 2022) battle ein 540-Milliarden-Parameter, Decodierer-Transformator und Teil des Google Pathways-Methods. Es wurde auf einem hochwertigen Korpus von 780 Milliarden Token und in Tausenden von TPU-V4-Chips in der Infrastruktur von Google geschult, wobei die Parallelität zur Erzielung einer hohen Hardwareauslastung verwendet wird. Das Modell hat auch multiquerziell Aufmerksamkeit, um die Anforderungen an die Speicherbandbreite während der Inferenz zu verringern. Palm ist bekannt für seine Wenige Schüsse LernfunktionenAufgrund seiner riesigen und vielfältigen Trainingsdaten, die Webseiten, Bücher, Wikipedia, Nachrichten, Github -Code und Social -Media -Gespräche umfassen, intestine bei neuen Aufgaben mit minimaler Beispiele abschneiden. Palm 2, der im Mai 2023 angekündigt wurde, verbesserte mehrsprachige, argumentations- und codierungsfunktionen, antretende Anwendungen wie Google Bard und Workspace AI -Funktionen.

5. Gemini

Gemini 2.5 Weblog: https://weblog.google/know-how/google-deepmind/gemini-model-tinking-updates-march-2025/
Papierverbindung (Gemini 1.5): https://arxiv.org/abs/2403.05530
Papierverbindung (Gemini): https://arxiv.org/abs/2312.11805
Gemini ist die LLM-Familie der nächsten Era von Google (von Google DeepMind und Google Analysis), die Ende 2023 eingeführt wurde. Gemini-Modelle sind nativ multimodal, was bedeutet, dass sie von Grund auf für Textual content, Bilder, Audio, Video und sogar Code in einem Modell ausgelegt sind. Wie Palm und GPT basiert Gemini auf dem Transformator, aber die wichtigsten Merkmale umfassen eine large Skalierung, Unterstützung für extrem lange Kontexte und (in Gemini 1.5) einer Mischung aus Experten (MOE) für die Effizienz. Zum Beispiel verwendet Gemini 1.5 („Professional“) spärlich aktivierte Expertenschichten (Hunderte von Experten Sub-Networks mit nur wenigen aktiven professional Eingabe), um die Kapazität ohne proportionale Berechnungskosten zu steigern. Die im März 2025 gestartete Gemini 2.5 -Serie basiert auf dieser Stiftung mit noch tieferen „Denken“ -Funktionen. Im Juni 2025 veröffentlichte Google Gemini 2.5 Flash und Professional als stabile Modelle und die vorschauende Flash-Lite, die kosteneffizienteste und schnellste Model, die für Aufgaben mit hohem Durchsatz optimiert wurde und gleichzeitig das millionengerichtete Kontextfenster und die Toolintegrationen wie die Such- und Codeausführung unterstützt. Die Gemini -Familie gibt es in mehreren Größen (Extremely, Professional, Nano), sodass sie von Cloud -Servern bis hin zu mobilen Geräten geleitet werden kann. Die Kombination aus multimodaler Vorab- und MOE-Foundation-Skalierung macht Gemini zu einem flexiblen, hochleitenden Fundamentmodell.

6. Mistral

Papierverbindung (Mistral 7b): https://arxiv.org/abs/2310.06825
Mistral ist ein französisches KI-Startup, das 2023 seine ersten LLMs veröffentlichte. Sein Flaggschiff-Modell Mistral 7b (September 2023) ist ein Decodierermodell von 7,3 Milliarden Parametern. Architektonisch ähnelt Mistral 7b einem Modell im GPT-Stil, beinhaltet jedoch Optimierungen für Inferenz: Es verwendet die Aufmerksamkeit von Gruppierterfragen (GQA), um die Selbstbekämpfung und die Aufmerksamkeit zu beschleunigen, um längere Kontexte effizienter zu behandeln. In Bezug auf die Leistung übertraf Mistral 7B die Lama 2 13b von Meta und lieferte sogar starke Ergebnisse gegenüber 34B -Modellen, während sie viel kleiner waren. Mistral AI veröffentlichte das Modell unter einer Apache 2.0 -Lizenz und stellte es frei zur Verfügung. Die nächste Hauptveröffentlichung battle Mixtral 8 × 7B, ein spärliches Modell der Mischung aus Experten (MOE) mit acht 7 B-Parameter-Expertennetzwerken professional Schicht. Dieses Design half Mixtral, GPT -3.5 und Lama 2 70b bei Aufgaben wie Mathematik, Codierung und mehrsprachigen Benchmarks zu Match oder schlug. Im Mai 2025 veröffentlichte Mistral Mistral Medium 3, ein proprietäres mittelgroßes Modell für Unternehmen. Dieses Modell liefert über 90% der Punktzahl von teureren Modellen wie Claude 3.7-Sonett für Normal-Benchmarks, während sie die pro-Fusionskosten dramatisch reduzieren (ungefähr 0,40 USD in vs $ 3,00 für Sonnet). Es unterstützt multimodale Aufgaben (Textual content + Bilder), professionelles Denken und wird über eine API oder für die Bereitstellung von On-Preme für nur vier GPUs angeboten. Im Gegensatz zu früheren Modellen ist Medium 3 jedoch geschlossen, was die Kritik der Gemeinschaft dazu veranlasst, dass Mistral sich von seinem Open-Supply-Ethos entzieht. Kurz darauf führte Mistral im Juni 2025 das Magistral ein, das sich dem ersten Modell ausdrücklich für ein explizites Denken widmete. Die kleine Model ist unter Apache 2.0 geöffnet, während das Magistral-Medium nur Unternehmen ist. Das Magistral Medium erzielte bei Aime2024 73,6%, wobei die kleine Model 70,7% erzielte und in mehreren Sprachen starke mathematische und logische Fähigkeiten zeigte.

7. Deepseek

Paper Hyperlink (Deepseek-R1): https://arxiv.org/abs/2501.12948
Deepseek ist eine chinesische KI-Firma (Spin-off von Excessive-Flyer-KI, gegründet 2023), die große LLMs entwickelt. Die jüngsten Modelle (wie Deepseek V3 und Deepseek-R1) verwenden eine sehr spärlich aktivierte Mischung der Experten-Transformatorarchitektur. In Deepseek V3/R1 verfügt jede Transformatorschicht über Hunderte von Experten-Unternetzwerken, aber nur wenige werden professional Token aktiviert. Dies bedeutet, dass das Modell anstatt alle Teile des Modells gleichzeitig auszuführen, Hunderte von Expertennetzwerken und aktiviert nur einige (wie 9 von 257), je nachdem, was für jede Eingabe benötigt wird. Dies ermöglicht Deepseek, eine riesige Gesamtmodellgröße (über 670 Milliarden Parameter) zu haben und während jeder Antwort nur etwa 37 Milliarden zu verwenden, was es viel schneller und billiger macht als ein dichter Modell mit ähnlicher Größe. Wie bei anderen modernen LMS verwendet es Swiglu -Aktivierungen, Rotationseinbettungen (Seile) und fortschrittliche Optimierungen (einschließlich experimenteller FP8 -Präzision während des Trainings), um es effizienter zu gestalten. Mit diesem aggressiven MOE -Design können Deepseek zu niedrigeren Rechenkosten sehr hohe Fähigkeiten erreichen (vergleichbar mit viel größeren dichten Modellen). Die Modelle von Deepseek (veröffentlicht unter offenen Lizenzen) erregten die Aufmerksamkeit für konkurrierende Modelle wie GPT-4 in mehrsprachiger Era und Argumentation, während sie gleichzeitig die Anforderungen des Trainings und der Inferenzressourcen erheblich reduzierten.

Kanwal Mehreen Kanwal ist ein Ingenieur für maschinelles Lernen und technischer Schriftsteller mit einer tiefgreifenden Leidenschaft für die Datenwissenschaft und die Schnittstelle von KI mit Medizin. Sie hat das eBook „Produktivität mit Chatgpt maximieren“. Als Google -Era -Gelehrte 2022 für APAC setzt sie sich für Vielfalt und akademische Exzellenz ein. Sie wird auch als Teradata -Vielfalt in Tech Scholar, MITACS Globalink Analysis Scholar und Harvard Wecode Scholar anerkannt. Kanwal ist ein leidenschaftlicher Verfechter der Veränderung, nachdem er Femcodes gegründet hat, um Frauen in STEM -Bereichen zu stärken.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert