Projekt - Machine Learning in unsicheren Entscheidungssituationen

Reinforcement Learning und Deep-Q-Networks: Von der Theorie zur lauffähigen Lösung – Beweis für Kompetenz in datengetriebenen Entscheidungssystemen.

Kunde: Forschung & Entwicklung
Jahr: 2020
Leistungen: Machine Learning, Reinforcement Learning, Deep Q-Networks (DQN, DDQN, DDQN+PER), Python, Keras, TensorFlow

Ausgangslage

Viele Geschäftsentscheidungen finden unter Unsicherheit statt: begrenzte Information, wechselnde Bedingungen, langfristige Folgen einzelner Schritte. Ähnliche Strukturen finden sich in Spielen mit unvollständiger Information – ein geeignetes Testfeld für maschinelles Lernen.

Ziel des Projekts war es, ein System zu bauen, das in einem solchen Umfeld eigenständig Strategien erlernt, ohne dass jede Regel von Hand vorgegeben wird. Damit wird gezeigt, dass datengetriebene, adaptive Entscheidungssysteme technisch beherrschbar und in anspruchsvollen Domänen einsetzbar sind.

Technischer Fokus: DDQN mit Prioritized Experience Replay

Die zentrale technische Leistung liegt in der Umsetzung eines Double Deep Q-Network mit Prioritized Experience Replay (DDQN+PER).

Problem: In grossen Zustandsräumen mit unvollständiger Information sind klassische Ansätze schnell an Grenzen. Zudem müssen Lernsignale zeitlich korrekt zugeordnet werden (Credit Assignment).
Lösung: Ein Reinforcement-Learning-Ansatz mit Temporal-Difference Learning. Statt alle Erfahrungen gleich zu gewichten, priorisiert das System relevante Erfahrungen und lernt so effizienter. Die Doppelstruktur des Q-Networks reduziert typische Überschätzungen und stabilisiert das Training.
Ergebnis: Die Agenten lernen eigenständig, Muster zu erkennen und sich gegen unterschiedliche Gegner zu behaupten. Die Architektur wurde von Grund auf entwickelt und auf einer dedizierten Evaluationsplattform getestet.

Damit wird demonstriert: Komplexe ML-Architekturen für unsichere, sequenzielle Entscheidungen können geplant, implementiert und evaluiert werden – eine Fähigkeit, die sich auf betriebliche Anwendungen (z. B. Ressourcenplanung, Empfehlungssysteme, Prozessoptimierung) übertragen lässt.

Leistungen & Technologien

Reinforcement Learning
Deep Q-Network (DQN)
Double DQN (DDQN)
Prioritized Experience Replay
Temporal-Difference Learning
Python / Keras / TensorFlow
Evaluationsplattform & Benchmarks

Kernarchitektur: DDQN+PER
Eigenentwicklung der Modelle: Von Grund auf
Strategie-Lernen ohne Regelvorgaben: Autonom
Reproduzierbare Vergleichsläufe: Evaluierbar

Anschrift

Follow us

Projekt - Machine Learning in unsicheren Entscheidungssituationen

Ausgangslage

Technischer Fokus: DDQN mit Prioritized Experience Replay

Leistungen & Technologien

More case studies

Von der Case Study zur produktionsreifen KI-Plattform

DevOps & Infrastruktur für einen führenden Parklösungs-Anbieter

Ein Gespräch, das Klarheit bringt.