De biologie achter versterkingsleren kan gevonden worden bij Operant conditioneren, en Beloning

Reinforcement learning (RL) is het aanleren van een softwareagent hoe hij zich in een omgeving moet gedragen door hem te vertellen hoe goed hij het doet. Het is een gebied van machinaal leren dat is geïnspireerd door de behavioristische psychologie.

Versterkingsleren verschilt van leren onder toezicht omdat de juiste inputs en outputs nooit worden getoond. Ook leert versterkingsleren meestal al doende (online leren) in tegenstelling tot leren onder toezicht. Dit betekent dat een agent moet kiezen tussen verkennen en vasthouden aan wat hij het beste weet.