Reinforcement Learning from Human Feedback

[ˌriːɪnˈfɔːsmənt ˈlɜːnɪŋ frəm ˈhjuːmən ˈfiːdbæk]

Ethics & Safety

Last updated: December 9, 2024

Definition

Training AI systems using human evaluations of their outputs

Machine learning technique that incorporates human feedback to improve AI model behavior and align it with human preferences

Language model training Content moderation systems Autonomous system behavior refinement