Projekt - Machine Learning in unsicheren Entscheidungssituationen
Reinforcement Learning und Deep-Q-Networks: Von der Theorie zur lauffähigen Lösung – Beweis für Kompetenz in datengetriebenen Entscheidungssystemen.
- Kunde
- Forschung & Entwicklung
- Jahr
- Leistungen
- Machine Learning, Reinforcement Learning, Deep Q-Networks (DQN, DDQN, DDQN+PER), Python, Keras, TensorFlow

Ausgangslage
Viele Geschäftsentscheidungen finden unter Unsicherheit statt: begrenzte Information, wechselnde Bedingungen, langfristige Folgen einzelner Schritte. Ähnliche Strukturen finden sich in Spielen mit unvollständiger Information – ein geeignetes Testfeld für maschinelles Lernen.
Ziel des Projekts war es, ein System zu bauen, das in einem solchen Umfeld eigenständig Strategien erlernt, ohne dass jede Regel von Hand vorgegeben wird. Damit wird gezeigt, dass datengetriebene, adaptive Entscheidungssysteme technisch beherrschbar und in anspruchsvollen Domänen einsetzbar sind.
Technischer Fokus: DDQN mit Prioritized Experience Replay
Die zentrale technische Leistung liegt in der Umsetzung eines Double Deep Q-Network mit Prioritized Experience Replay (DDQN+PER).
- Problem: In grossen Zustandsräumen mit unvollständiger Information sind klassische Ansätze schnell an Grenzen. Zudem müssen Lernsignale zeitlich korrekt zugeordnet werden (Credit Assignment).
- Lösung: Ein Reinforcement-Learning-Ansatz mit Temporal-Difference Learning. Statt alle Erfahrungen gleich zu gewichten, priorisiert das System relevante Erfahrungen und lernt so effizienter. Die Doppelstruktur des Q-Networks reduziert typische Überschätzungen und stabilisiert das Training.
- Ergebnis: Die Agenten lernen eigenständig, Muster zu erkennen und sich gegen unterschiedliche Gegner zu behaupten. Die Architektur wurde von Grund auf entwickelt und auf einer dedizierten Evaluationsplattform getestet.
Damit wird demonstriert: Komplexe ML-Architekturen für unsichere, sequenzielle Entscheidungen können geplant, implementiert und evaluiert werden – eine Fähigkeit, die sich auf betriebliche Anwendungen (z. B. Ressourcenplanung, Empfehlungssysteme, Prozessoptimierung) übertragen lässt.
Leistungen & Technologien
- Reinforcement Learning
- Deep Q-Network (DQN)
- Double DQN (DDQN)
- Prioritized Experience Replay
- Temporal-Difference Learning
- Python / Keras / TensorFlow
- Evaluationsplattform & Benchmarks
- Kernarchitektur
- DDQN+PER
- Eigenentwicklung der Modelle
- Von Grund auf
- Strategie-Lernen ohne Regelvorgaben
- Autonom
- Reproduzierbare Vergleichsläufe
- Evaluierbar