Mathematische Grundlagen & Transformer-Architektur für KI-Modelle

Dieser Abschnitt legt die mathematische Basis für das Verständnis von Transformers. Er behandelt die essenzielle Self-Attention-Mechanik, Multi-Head Attention sowie moderne Einbettungsverfahren wie RoPE. Ideal für Entwickler, die die interne Logik von Sequence-to-Sequence-Modellen tiefgreifend verstehen wollen.

Erwartungsabgleich und individuelle Zieldefinition
Evolution von Sequence-to-Sequence-Modellen
Self-Attention: Formulierung, Intuition und Komplexität
Multi-Head Attention
Positional Encoding: sinusoidal & Rotary Positional Embeddings (RoPE)
Residual Connections und Layer Normalization
Feed-Forward-Netzwerke im Transformer-Block

LLM-Architekturdesign, GPT-Modelle & moderne Tokenisierung

Hier lernen Teilnehmer alles über das Design von LLM-Architekturen. Der Fokus liegt auf Tokenisierungs-Algorithmen (BPE, SentencePiece) und dem Vergleich von Encoder-only (BERT), Decoder-only (GPT) und Encoder-Decoder (T5) Modellen sowie den entscheidenden Skalierungsgesetzen (Scaling Laws).

Subword-Tokenisierung: BPE, WordPiece, SentencePiece
Vocabulary-Design und Trade-offs
Embedding-Dimensionierung und Kontextfenster
Architekturvarianten:
- Encoder-only (BERT)
- Decoder-only (GPT)
- Encoder-Decoder (T5)
Aufbau eines Decoder-only Modells
Kausale Maskierung
Skalierungsgesetze und Modellgrößenplanung

LLM-Pretraining, Distributed Training & GPU-Infrastruktur

Das Training von Large Language Models erfordert massive Rechenleistung. Dieser Bereich deckt die technische Infrastruktur ab, von Distributed Training (Data & Pipeline Parallelism) bis hin zu Mixed Precision Training (FP16/BF16) und GPU-Cluster-Konfigurationen für effizientes Causal Language Modeling.

Datensammlung, Bereinigung und Deduplizierung
Causal Language Modeling Objective
Datenlader, Batching und Sequence Packing
Distributed Training:
- Data Parallelism
- Model / Pipeline Parallelism
Mixed Precision Training (FP16 / BF16)
GPU-Cluster-Konfiguration

LLM Fine-Tuning, LoRA & Modell-Alignment (RLHF)

In diesem Modul geht es um die Feinabstimmung von Modellen. Wir behandeln Parameter-effizientes Fine-Tuning (PEFT) mittels LoRA/QLoRA sowie Alignment-Methoden wie RLHF und DPO, um Modelle sicher und zielgerichtet auf spezifische Aufgaben vorzubereiten.

Optimierungsalgorithmen (AdamW, Weight Decay)
Gradient Clipping und Stabilität
Learning-Rate-Strategien (Warmup, Cosine Annealing)
Checkpointing und Resume-Strategien
Supervised Fine-Tuning (SFT)
Parameter-effizientes Fine-Tuning:
- LoRA / QLoRA
Alignment-Überblick:
- RLHF
- Direct Preference Optimization (DPO)

LLM Evaluation, Inferenz-Optimierung & Skalierbares Deployment

Der Abschluss behandelt den produktiven Einsatz. Von Evaluationsmetriken (MMLU, HumanEval) über Quantisierungstechniken (GPTQ, AWQ) bis hin zu Hochleistungs-Inferenz-Servern wie vLLM und TGI erfahren Teilnehmer, wie KI-Modelle kosteneffizient skaliert werden.

Evaluationsmetriken: Perplexity, BLEU, ROUGE
Benchmarking: MMLU, HellaSwag, HumanEval, SWE-bench, MBPP
Quantisierung und Inferenz-Optimierung (GPTQ, AWQ)
Deployment-Optionen:
- vLLM
- TGI, ONNX Runtime
Performance-Analyse und Kostenabschätzung

Durchgehendes Praxisprojekt: Eigenes Sprachmodell (LLM) in PyTorch implementieren

Theorie trifft Praxis. In diesem durchgehenden Projekt wird ein eigenes Decoder-only LLM in PyTorch implementiert. Teilnehmer trainieren einen Tokenizer, führen ein Pretraining durch und nutzen LoRA für domänenspezifisches Fine-Tuning.

Implementierung eines Decoder-only LLMs in PyTorch
Training eines eigenen Tokenizers
Pretraining auf vorbereitetem Datensatz
Fine-Tuning mit LoRA auf domänenspezifischen Daten
Evaluation, Fehleranalyse und Optimierung

Masterclass: Large Language Models – Von der Theorie zur Implementierung

Kursinhalt