Quests
#
RLHF
1 post
从 RL 来,到 RLHF 去
2025年5月8日 14:15
50 min read
本文主要基于 Umar Jamil 的课程进行学习和记录。我们的目标是让 LLM 的行为与我们的期望的输出相一致,RLHF 则是最著名的技术之一。
深度学习
RLHF
LLM
Session
00:00:00