Mathematische Grundlagen & Transformer-Architektur für KI-Modelle
Dieser Abschnitt legt die mathematische Basis für das Verständnis von Transformers. Er behandelt die essenzielle Self-Attention-Mechanik, Multi-Head Attention sowie moderne Einbettungsverfahren wie RoPE. Ideal für Entwickler, die die interne Logik von Sequence-to-Sequence-Modellen tiefgreifend verstehen wollen.
- Erwartungsabgleich und individuelle Zieldefinition
- Evolution von Sequence-to-Sequence-Modellen
- Self-Attention: Formulierung, Intuition und Komplexität
- Multi-Head Attention
- Positional Encoding: sinusoidal & Rotary Positional Embeddings (RoPE)
- Residual Connections und Layer Normalization
- Feed-Forward-Netzwerke im Transformer-Block
LLM-Architekturdesign, GPT-Modelle & moderne Tokenisierung
Hier lernen Teilnehmer alles über das Design von LLM-Architekturen. Der Fokus liegt auf Tokenisierungs-Algorithmen (BPE, SentencePiece) und dem Vergleich von Encoder-only (BERT), Decoder-only (GPT) und Encoder-Decoder (T5) Modellen sowie den entscheidenden Skalierungsgesetzen (Scaling Laws).
- Subword-Tokenisierung: BPE, WordPiece, SentencePiece
- Vocabulary-Design und Trade-offs
- Embedding-Dimensionierung und Kontextfenster
- Architekturvarianten:
- Encoder-only (BERT)
- Decoder-only (GPT)
- Encoder-Decoder (T5)
- Aufbau eines Decoder-only Modells
- Kausale Maskierung
- Skalierungsgesetze und Modellgrößenplanung
LLM-Pretraining, Distributed Training & GPU-Infrastruktur
Das Training von Large Language Models erfordert massive Rechenleistung. Dieser Bereich deckt die technische Infrastruktur ab, von Distributed Training (Data & Pipeline Parallelism) bis hin zu Mixed Precision Training (FP16/BF16) und GPU-Cluster-Konfigurationen für effizientes Causal Language Modeling.
- Datensammlung, Bereinigung und Deduplizierung
- Causal Language Modeling Objective
- Datenlader, Batching und Sequence Packing
- Distributed Training:
- Data Parallelism
- Model / Pipeline Parallelism
- Mixed Precision Training (FP16 / BF16)
- GPU-Cluster-Konfiguration
LLM Fine-Tuning, LoRA & Modell-Alignment (RLHF)
In diesem Modul geht es um die Feinabstimmung von Modellen. Wir behandeln Parameter-effizientes Fine-Tuning (PEFT) mittels LoRA/QLoRA sowie Alignment-Methoden wie RLHF und DPO, um Modelle sicher und zielgerichtet auf spezifische Aufgaben vorzubereiten.
- Optimierungsalgorithmen (AdamW, Weight Decay)
- Gradient Clipping und Stabilität
- Learning-Rate-Strategien (Warmup, Cosine Annealing)
- Checkpointing und Resume-Strategien
- Supervised Fine-Tuning (SFT)
- Parameter-effizientes Fine-Tuning:
- LoRA / QLoRA
- Alignment-Überblick:
- RLHF
- Direct Preference Optimization (DPO)
LLM Evaluation, Inferenz-Optimierung & Skalierbares Deployment
Der Abschluss behandelt den produktiven Einsatz. Von Evaluationsmetriken (MMLU, HumanEval) über Quantisierungstechniken (GPTQ, AWQ) bis hin zu Hochleistungs-Inferenz-Servern wie vLLM und TGI erfahren Teilnehmer, wie KI-Modelle kosteneffizient skaliert werden.
- Evaluationsmetriken: Perplexity, BLEU, ROUGE
- Benchmarking: MMLU, HellaSwag, HumanEval, SWE-bench, MBPP
- Quantisierung und Inferenz-Optimierung (GPTQ, AWQ)
- Deployment-Optionen:
- vLLM
- TGI, ONNX Runtime
- Performance-Analyse und Kostenabschätzung
Durchgehendes Praxisprojekt: Eigenes Sprachmodell (LLM) in PyTorch implementieren
Theorie trifft Praxis. In diesem durchgehenden Projekt wird ein eigenes Decoder-only LLM in PyTorch implementiert. Teilnehmer trainieren einen Tokenizer, führen ein Pretraining durch und nutzen LoRA für domänenspezifisches Fine-Tuning.
- Implementierung eines Decoder-only LLMs in PyTorch
- Training eines eigenen Tokenizers
- Pretraining auf vorbereitetem Datensatz
- Fine-Tuning mit LoRA auf domänenspezifischen Daten
- Evaluation, Fehleranalyse und Optimierung