

Bild vom Autor
# Einführung
Ich weiß, dass viele Menschen sich eingehend mit LLMs befassen möchten, und obwohl Kurse und Artikel großartig sind, um sich ein breiteres Wissen anzueignen, muss man für ein tieferes Verständnis unbedingt auf Bücher zurückgreifen. Was mir persönlich an Büchern auch gefällt, ist ihre Struktur. Ihre Reihenfolge ist intuitiver und kohärenter als bei Kursen, die manchmal den Eindruck erwecken, dass sie überfüllt sind. Mit dieser Motivation starten wir eine neue Serie für unsere Leser, um 5 KOSTENLOSE, aber absolut lohnende Bücher für verschiedene Rollen zu empfehlen. Wenn Sie additionally ernsthaft verstehen möchten, wie große Sprachmodelle (LLMs) wirklich funktionieren, finden Sie hier meine Empfehlungen 5 KOSTENLOSE Bücher mit dem du beginnen solltest.
# 1. Grundlagen großer Sprachmodelle
Veröffentlicht Anfang 2025, Grundlagen großer Sprachmodelle ist eines der am besten strukturierten und konzeptionell klarsten Bücher, das für jeden geschrieben wurde, der tatsächlich verstehen möchte, wie LLMs aufgebaut, trainiert und ausgerichtet werden. Die Autoren (Tong Xiao und Jingbo Zhu) sind beide bekannte Persönlichkeiten in der Verarbeitung natürlicher Sprache (NLP). Anstatt jede neue Architektur oder jeden neuen Pattern im Eiltempo durchzugehen, erläutern sie sorgfältig die Kernmechanismen moderner Modelle wie GPT, BERT und LLaMA.
Das Buch betont grundlegendes Denken: Was Pre-Coaching eigentlich bedeutet, wie generative Modelle intern funktionieren, warum Aufforderungsstrategien wichtig sind und was „Ausrichtung“ wirklich bedeutet, wenn Menschen versuchen, das Maschinenverhalten zu verfeinern. Ich denke, es ist eine durchdachte Steadiness zwischen Theorie und Umsetzung, die sowohl für Studenten als auch für Praktiker gedacht ist, die vor Beginn des Experiments eine solide konzeptionelle Grundlage aufbauen möchten.
// Überblick über die Gliederung
- Vortraining (Überblick, verschiedene Paradigmen, Bert, praktische Aspekte der Anpassung und Anwendung vorab trainierter Modelle usw.)
- Generative Modelle (Decoder-only-Transformatoren, Datenaufbereitung, verteiltes Coaching, Skalierungsgesetze, Speicheroptimierung, Effizienzstrategien usw.)
- Eingabeaufforderung (Grundsätze eines guten Eingabeaufforderungsdesigns, fortgeschrittene Eingabeaufforderungsmethoden, Techniken zur Optimierung von Eingabeaufforderungen)
- Ausrichtung (LLM-Ausrichtung und RLHF, Anweisungsoptimierung, Belohnungsmodellierung, Präferenzoptimierung)
- Inferenz (Anleitung zu Dekodierungsalgorithmen, Bewertungsmetriken, effiziente Inferenzmethoden)
# 2. Sprach- und Sprachverarbeitung
Wenn Sie NLP und LLMs tiefgreifend verstehen möchten, Sprach- und Sprachverarbeitung von Daniel Jurafsky und James H. Martin ist eine der besten Quellen. Der Entwurf der 3. Auflage (Veröffentlichung vom 24. August 2025) wurde vollständig aktualisiert, um modernes NLP abzudecken, einschließlich Transformers, LLMs, automatischer Spracherkennung (Whisper) und Textual content-to-Speech-Systemen (EnCodec & VALL-E). Jurafsky und Martin sind führend in der Computerlinguistik und ihr Buch wird an Spitzenuniversitäten häufig verwendet.
Es bietet einen klaren, strukturierten Ansatz von den Grundlagen wie Token und Einbettungen bis hin zu fortgeschrittenen Themen wie LLM-Schulung, Ausrichtung und Konversationsstruktur. Der PDF-Entwurf ist frei verfügbar und somit sowohl praktisch als auch zugänglich.
// Überblick über die Gliederung
- Band I: Große Sprachmodelle
- Kapitel 1–2: Einführung, Wörter, Token und Unicode-Handhabung
- Kapitel 3–5: N-Gramm-LMs, logistische Regression zur Textklassifizierung und Vektoreinbettungen
- Kapitel 6–8: Neuronale Netze, LLMs und Transformatoren – einschließlich Sampling- und Trainingstechniken
- Kapitel 9–12: Optimierung nach dem Coaching, maskierte Sprachmodelle, IR & RAG und maschinelle Übersetzung
- Kapitel 13: RNNs und LSTMs (optionale Reihenfolge für Lernsequenzmodelle)
- Kapitel 14–16: Phonetik, Sprachmerkmalsextraktion, automatische Spracherkennung (Whisper) und Textual content-to-Speech (EnCodec & VALL-E)
- Band II: Kommentieren der sprachlichen Struktur
- Kapitel 17–25: Sequenzkennzeichnung, POS & NER, CFGs, Abhängigkeitsanalyse, Informationsextraktion, semantische Rollenkennzeichnung, Lexika, Koreferenzauflösung, Diskurskohärenz und Konversationsstruktur
# 3. So skalieren Sie Ihr Modell: Eine Systemansicht von LLMs auf TPUs
Das Coaching von LLMs kann schwierig sein, da die Zahl riesig ist, die {Hardware} komplex ist und es schwierig ist, zu erkennen, wo die Engpässe liegen. So skalieren Sie Ihr Modell: Eine Systemansicht von LLMs auf TPUs verfolgt einen sehr praktischen, systemorientierten Ansatz, um die Leistungsseite von LLMs zu erklären, beispielsweise wie Tensor Processing Items (TPUs) (und GPUs) unter der Haube funktionieren, wie diese Geräte kommunizieren und wie LLMs tatsächlich auf echter {Hardware} laufen. Es behandelt auch Parallelitätsstrategien sowohl für das Coaching als auch für die Inferenz, um Modelle in großen Größen effizient zu skalieren.
Diese Ressource zeichnet sich dadurch aus, dass die Autoren selbst bei Google an produktionstauglichen LLM-Systemen gearbeitet haben und daher ihre Erkenntnisse weitergeben.
// Überblick über die Gliederung
- Teil 0: Rooflines (Hardwareeinschränkungen verstehen: Flops, Speicherbandbreite, Speicher)
- Teil 1: TPUs (wie TPUs für Multi-Chip-Coaching zusammenarbeiten und sich vernetzen)
- Teil 2: Sharding (Matrixmultiplikation, TPU-Kommunikationskosten)
- Teil 3: Transformer-Mathematik (Berechnung von Flops, Bytes und anderen kritischen Metriken)
- Teil 4: Schulung (Parallelitätsstrategien: Datenparallelität, Totally-Sharded-Information-Parallelität (FSDP), Tensor-Parallelität, Pipeline-Parallelität)
- Teil 5: Coaching von LLaMA (praktische Beispiele für das Coaching von Lama 3 auf TPU v5p; Überlegungen zu Kosten, Sharding und Größe)
- Teil 6: Inferenz (Latenzüberlegungen, effiziente Abtastung und Beschleunigernutzung)
- Teil 7: Bereitstellung von LLaMA (Bereitstellung von Lama 3-70b-Modellen auf TPU v5e; KV-Caches, Batchgrößen, Sharding und Produktionslatenzschätzungen)
- Teil 8: Profiling (praktische Optimierung mit XLA-Compiler und Profiling-Instruments)
- Teil 9: JAX (TPUs effizient programmieren mit JAX)
# 4. Große Sprachmodelle verstehen: Auf dem Weg zu einer strengen und gezielten Interpretierbarkeit mithilfe von Sondierungsklassifikatoren und Selbstrationalisierung
Große Sprachmodelle verstehen: Auf dem Weg zu einer strengen und gezielten Interpretierbarkeit mithilfe von Sondierungsklassifikatoren und Selbstrationalisierung ist kein typisches Lehrbuch. Es handelt sich um eine Doktorarbeit von Jenny Kunz von der Universität Linköping, die jedoch einen so einzigartigen Aspekt von LLMs abdeckt, dass sie einen Platz in dieser Liste verdient. Sie erforscht, wie große Sprachmodelle funktionieren und wie wir sie besser verstehen können.
LLMs schneiden bei vielen Aufgaben sehr intestine ab, es ist jedoch nicht klar, wie sie ihre Vorhersagen treffen. Diese Arbeit untersucht zwei Möglichkeiten, diese Modelle zu verstehen: die Betrachtung der internen Schichten mithilfe von Sondierungsklassifikatoren und die Untersuchung der Erklärungen, die Modelle für ihre Vorhersagen generieren. Sie untersucht auch Modelle, die mit ihren Vorhersagen Freitexterklärungen generieren, und untersucht, welche Eigenschaften dieser Erklärungen tatsächlich nachgelagerte Aufgaben unterstützen und welche mit der menschlichen Instinct übereinstimmen. Diese Arbeit ist nützlich für Forscher und Ingenieure, die an der Schaffung transparenterer und verantwortungsvollerer KI-Systeme interessiert sind.
// Überblick über die Gliederung
- LLM-Schichten mit Sondierungsklassifikatoren verstehen (Analyse der in jeder Schicht des Modells gespeicherten Informationen, Überprüfung der Einschränkungen vorhandener Sondierungsmethoden, Erstellung strengerer Sondierungstests unter Verwendung von Datenänderungen, Entwicklung neuer Methoden zur Messung von Unterschieden im Wissen der Schichten)
- Erklären von Vorhersagen mit selbstrationalisierenden Modellen (Generieren von Texterklärungen zusammen mit Modellvorhersagen, Vergleichen von Erklärungen mit menschlichen Bewertungen und der Aufgabenleistung, Untersuchen, welche Eigenschaften Erklärungen für Aufgaben nützlich und leicht verständlich machen, Kommentieren von Erklärungen für menschenähnliche Merkmale und deren Auswirkungen auf verschiedene Benutzer)
# 5. Große Sprachmodelle in der Cybersicherheit: Bedrohungen, Gefährdung und Schadensbegrenzung
LLMs sind sehr leistungsstark, können aber auch Risiken mit sich bringen, etwa die Preisgabe privater Informationen, die Unterstützung bei Phishing-Angriffen oder die Einführung von Code-Schwachstellen. Große Sprachmodelle in der Cybersicherheit: Bedrohungen, Gefährdung und Schadensbegrenzung erklärt diese Risiken und zeigt Wege auf, sie zu reduzieren. Es behandelt reale Beispiele, darunter Social Engineering, die Überwachung der LLM-Einführung und die Einrichtung sicherer LLM-Systeme.
Diese Ressource ist einzigartig, da sie sich auf LLMs im Bereich Cybersicherheit konzentriert, ein Thema, das in den meisten LLM-Büchern nicht behandelt wird. Es ist sehr nützlich für alle, die sowohl die Gefahren als auch die Schutzmaßnahmen im Zusammenhang mit LLMs verstehen möchten.
// Überblick über die Gliederung
- Teil I: Einführung (Funktionsweise und Einsatz von LLMs, Grenzen von LLMs und Bewertung ihrer Aufgaben)
- Teil II: LLMs in der Cybersicherheit (Risiken des Verlusts privater Informationen, Phishing- und Social-Engineering-Angriffe, Schwachstellen durch Codevorschläge, LLM-gestützte Einflussoperationen und Webindizierung)
- Teil III: Verfolgung und Prognose der Exposition (Developments bei der Einführung von LLM und Risiken, Investitions- und Versicherungsaspekte, Urheberrecht und rechtliche Fragen, Überwachung neuer Forschungsergebnisse zu LLMs)
- Teil IV: Schadensbegrenzung (Sicherheitserziehung und -bewusstsein, Schulungsmethoden zum Schutz der Privatsphäre, Abwehrmaßnahmen gegen Angriffe und gegnerische Nutzung, LLM-Detektoren, Purple Teaming und Sicherheitsstandards)
- Teil V: Schlussfolgerung (die doppelte Rolle von LLMs bei der Verursachung von Bedrohungen und der Bereitstellung von Abwehrmaßnahmen, Empfehlungen für den sicheren Einsatz von LLMs)
# Zusammenfassung
Alle fünf dieser Bücher nähern sich LLMs aus sehr unterschiedlichen Blickwinkeln: Theorie, Linguistik, Systeme, Interpretierbarkeit und Sicherheit. Zusammengenommen bilden sie einen vollständigen Lernpfad für jeden, der sich ernsthaft mit dem Erlernen großer Sprachmodelle beschäftigt. Wenn Ihnen dieser Artikel gefallen hat, teilen Sie mir im Kommentarbereich unten mit, welche Themen Sie weiter vertiefen möchten.
Kanwal Mehreen ist ein Ingenieur für maschinelles Lernen und ein technischer Redakteur mit einer großen Leidenschaft für Datenwissenschaft und die Schnittstelle zwischen KI und Medizin. Sie ist Mitautorin des E-Books „Maximizing Productiveness with ChatGPT“. Als Google Era Scholar 2022 für APAC setzt sie sich für Vielfalt und akademische Exzellenz ein. Sie ist außerdem als Teradata Range in Tech Scholar, Mitacs Globalink Analysis Scholar und Harvard WeCode Scholar anerkannt. Kanwal ist ein leidenschaftlicher Verfechter von Veränderungen und hat FEMCodes gegründet, um Frauen in MINT-Bereichen zu stärken.
