Een AI-leermethode waarbij een model leert door beloningen en straffen te ontvangen op basis van acties.