Türme von Hanoi mit QLearning lösen

QLearning gehört zu den Reinforcement Lernstrategien. Bekannt geworden ist der Algorithmus durch Google mit ihrer Lernsoftware, die gegen beliebige Atari Klassikerspiele gewann.

Das prinzipielle Vorgehen bei diesem verfahren ist, dass man für alle möglichen Zugpfaden eine Belohnung berechnet. Diese wird iterativ aus der Endbelohnung abgeleitet, eine Art Optimmumssuche.

Als Beispiel habe ich ein kleines Programm geschrieben, dass den Algorithmus an einem Solospiel Türme von Hanoi demonstrieren soll.

Links:
https://en.wikipedia.org/wiki/Q-learning
https://github.com/sky4walk/HanoiTowersSolver

Werbung

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s

Diese Seite verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden..

%d Bloggern gefällt das:
search previous next tag category expand menu location phone mail time cart zoom edit close