Türme von Hanoi mit QLearning lösen

QLearning gehört zu den Reinforcement Lernstrategien. Bekannt geworden ist der Algorithmus durch Google mit ihrer Lernsoftware, die gegen beliebige Atari Klassikerspiele gewann.

Das prinzipielle Vorgehen bei diesem verfahren ist, dass man für alle möglichen Zugpfaden eine Belohnung berechnet. Diese wird iterativ aus der Endbelohnung abgeleitet, eine Art Optimmumssuche.

Als Beispiel habe ich ein kleines Programm geschrieben, dass den Algorithmus an einem Solospiel Türme von Hanoi demonstrieren soll.

Links:
https://en.wikipedia.org/wiki/Q-learning
https://github.com/sky4walk/HanoiTowersSolver

Advertisements

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.