Nagi-ovo
关注
Breezing homepage: nagi.fun
162
关注者
19
正在关注
赞助
主页
归档
作品集
日寄
友链
RLHF
最新
最热
最多评论
从 RL 来,到 RLHF 去
本文主要基于 Umar Jamil 的课程^{[1]}进行学习和记录。我们的目标是让 LLM 的行为与我们的期望的输出相一致,RLHF 则是最著名的技术之一。其标准流程涉及四个模型(听上去就很占显存,所以很多方法是去掉部分模型),这里只需记得一共需要四个即可:Reward…
深度学习
15 分钟
8 天前
此博客数据所有权由区块链加密技术和智能合约保障仅归创作者所有。
区块链标识
#61009
所有者
0x6380302480224d53ec4c2c318d1c7be2c55a7582
交易哈希
创作 0xe99aa0c3...eadd5b56dd
最后更新 0x5e6c1cbc...422856f4e3
IPFS 地址
ipfs://QmNMspsYnpWWJMUaMwuEDV5rXHnfh4hPH13KoneGX6oUnt