QLearning gehört zu den Reinforcement Lernstrategien. Bekannt geworden ist der Algorithmus durch Google mit ihrer Lernsoftware, die gegen beliebige Atari Klassikerspiele gewann.
Das prinzipielle Vorgehen bei diesem verfahren ist, dass man für alle möglichen Zugpfaden eine Belohnung berechnet. Diese wird iterativ aus der Endbelohnung abgeleitet, eine Art Optimmumssuche.
Als Beispiel habe ich ein kleines Programm geschrieben, dass den Algorithmus an einem Solospiel Türme von Hanoi demonstrieren soll.
Links:
https://en.wikipedia.org/wiki/Q-learning
https://github.com/sky4walk/HanoiTowersSolver