Zum Hauptinhalt springen

Diffusionsmodelle von Grund auf implementieren

Dieses praxisorientierte Seminar erklärt Diffusionsmodelle als generative Alternative zu GANs und VAEs. Teilnehmende entwickeln Schritt für Schritt ein eigenes Diffusionsmodell – von der Forward-Noise-Prozess-Definition bis zur Rückwärtsrekonstruktion. Themen sind u. a. Denoising Diffusion Probabilistic Models (DDPM), Conditioning, Sampling-Optimierung sowie Anwendungen in Bild-, Audio- und Textgenerierung.

Kursinhalt

Generative KI-Modelle: GANs, VAEs & Diffusionsmodelle im Vergleich

Verschaffen Sie sich einen fundierten Überblick über die Landschaft generativer KI. Dieser Abschnitt vergleicht klassische Ansätze wie GANs und VAEs mit modernen Diffusionsmodellen und beleuchtet die historische Entwicklung von DDPM über Stable Diffusion bis hin zu DALL-E 3.

  • GANs, VAEs und Autoregressive Modelle: Stärken und Schwächen
  • Warum Diffusionsmodelle? Motivation und Vorteile
  • Forschungsgeschichte: Von DDPM zu Stable Diffusion und DALL-E 3
  • Aktuelle Anwendungsbereiche und State of the Art

Diffusionsmodelle Mathematik: Forward & Reverse Process verstehen

Tauchen Sie tief in die Mathematik der Diffusionsmodelle ein. Hier erlernen Sie das fundamentale Prinzip des Forward Process (Hinzufügen von Gauß-Rauschen) und des Denoising (Reverse Process), inklusive komplexer Konzepte wie ELBO-Herleitung und Stochastic Differential Equations (SDEs).

  • Forward Process: Schrittweises Hinzufügen von Gauß-Rauschen
  • Reverse Process: Erlernte Entrauschung (Denoising)
  • Variational Bound und ELBO-Herleitung
  • Noise-Schedule: Linear, Cosine und lernbare Varianten
  • Score Matching und Stochastic Differential Equations (SDEs)

DDPM & U-Net Architektur: KI-Modelle trainieren und optimieren

Verstehen Sie die technische Architektur von Denoising Diffusion Probabilistic Models (DDPM). Dieser Teil behandelt den Aufbau von U-Net-Architekturen, die Nutzung von Timestep-Embeddings und die Implementierung der Loss-Funktion in einem effizienten Trainingsloop.

  • U-Net-Architektur: Encoder, Decoder und Skip-Connections
  • Timestep-Embedding und sinusoidale Kodierung
  • Loss-Funktion: Simplified Noise Prediction Objective
  • Trainingsloop: Forward-Diffusion, Noise-Prediction, Gradient-Update

Inferenz-Optimierung & Sampling für Diffusion Models (DDIM & DPM)

Beschleunigen Sie die Bildgenerierung durch optimierte Sampling-Strategien. Wir analysieren den vollständigen DDPM-Prozess, deterministisches DDIM-Sampling, moderne DPM-Solver für schnelle Inferenz sowie das Konzept der Classifier-Free Guidance.

  • DDPM-Sampling: Voller Reverse-Prozess
  • DDIM: Deterministic Sampling mit weniger Schritten
  • DPM-Solver und weitere beschleunigte Sampler
  • Classifier-Free Guidance und Guidance-Scale

ControlNet & CLIP: Bildgenerierung gezielt steuern (Conditioning)

Lernen Sie, wie Sie KI-Generierungen präzise steuern. Dieser Abschnitt fokussiert sich auf Text-Conditioning via CLIP und T5, Image-to-Image-Verfahren wie Inpainting sowie die strukturelle Kontrolle durch ControlNet und Adapter.

  • Classifier Guidance vs. Classifier-Free Guidance
  • Text-Conditioning mit CLIP und T5-Embeddings
  • Image-to-Image: Inpainting, Outpainting und Style Transfer
  • ControlNet und Adapter für strukturelle Steuerung

Stable Diffusion Architektur & Latent Diffusion Models (LDMs)

Entdecken Sie die Skalierbarkeitsvorteile von Latent Diffusion Models (LDMs). Erfahren Sie, wie die Kombination aus VAE-Kompression, U-Net und CLIP im latenten Raum die Effizienz von Open-Source-Modellen wie Stable Diffusion revolutioniert hat.

  • Autoencoder und latente Räume (VAE-Kompression)
  • Diffusion im Latent Space statt im Pixelraum
  • Architektur von Stable Diffusion: VAE + U-Net + CLIP
  • Vorteile: Recheneffizienz und Skalierbarkeit

Generative KI jenseits von Bildern: Audio-, Video- & 3D-Diffusion

Diffusionsmodelle können weit mehr als nur Bilder generieren. Erkunden Sie State-of-the-Art-Ansätze in benachbarten Domänen, darunter Audio- und Sprachgenerierung, Text-Diffusion, temporale Video-Generierung sowie Point-Cloud-Diffusion für 3D-Modelle.

  • Audio-Diffusion: Sprach- und Musikgenerierung
  • Text-Diffusion und diskrete Diffusionsmodelle
  • Video-Generierung und temporale Diffusion
  • 3D-Generierung und Point-Cloud-Diffusion

PyTorch Tutorial: Eigenes Diffusionsmodell programmieren & trainieren

Wenden Sie die Theorie in der Praxis an. In dieser Hands-on-Übung programmieren Sie eine U-Net-Architektur in PyTorch, implementieren den Forward- und Reverse-Prozess, konfigurieren das GPU-Training und testen Text-Conditioning und Sampling.

  • U-Net-Architektur in PyTorch aufbauen
  • Forward- und Reverse-Prozess implementieren
  • Trainingsloop auf GPU konfigurieren und durchführen
  • Text-Conditioning integrieren
  • Sampling-Varianten testen und vergleichen

Anforderungen

Wahrscheinlichkeitsrechnung, neuronale Netze, Python

Ziel

Die Teilnehmenden können nach Abschluss eigenständig Diffusionsmodelle entwerfen, implementieren und trainieren. Sie verstehen die probabilistischen Grundlagen, beherrschen die Architektur von U-Nets und Noise-Schedulern und können Conditioning-Mechanismen für gesteuerte Generierung einsetzen.
Diffusionsmodelle von Grund auf implementieren
 4 Tag(e)
  An einem Ort

2,390.00 €
zzgl. MwSt.