Nagi-ovo
Follow
Breezing homepage: nagi.fun
162
Followers
19
Followings
Patron
主页
Archives
Portfolios
日寄
友链
RLHF
Latest
Hottest
Most Commented
从 RL 来,到 RLHF 去
本文主要基于 Umar Jamil 的课程^{[1]}进行学习和记录。我们的目标是让 LLM 的行为与我们的期望的输出相一致,RLHF 则是最著名的技术之一。其标准流程涉及四个模型(听上去就很占显存,所以很多方法是去掉部分模型),这里只需记得一共需要四个即可:Reward…
深度学习
15 min
8 days ago
Ownership of this blog data is guaranteed by blockchain and smart contracts to the creator alone.
Blockchain ID
#61009
Owner
0x6380302480224d53ec4c2c318d1c7be2c55a7582
Transaction Hash
Creation 0xe99aa0c3...eadd5b56dd
Last Update 0x5e6c1cbc...422856f4e3
IPFS Address
ipfs://QmNMspsYnpWWJMUaMwuEDV5rXHnfh4hPH13KoneGX6oUnt