Nagi-ovo
关注
Breezing
135
关注者
17
正在关注
赞助
主页
归档
作品集
日寄
PPO
最新
最热
最多评论
“速通” PPO
Proximal Policy Optimization 终于到了这几年 NLP 领域中比较火热的 RL 算法之一了 On-Policy 算法中,采集数据用的策略和训练的策略是相同的,这样的问题是数据用一次后就得丢弃,然后再重新采集数据,训练速度很慢。 PPO 背后的直觉 …
RL
4 分钟
9 天前
此博客数据所有权由区块链加密技术和智能合约保障仅归创作者所有。
区块链标识
#61009
所有者
0x6380302480224d53ec4c2c318d1c7be2c55a7582
交易哈希
创作 0xe99aa0c3...eadd5b56dd
最后更新 0xa2a8e0fd...2a39597ebe
IPFS 地址
ipfs://bafkreib6guajxxyr7vuwfe24vb7ndto3kxbond4lbg3cpednsrpqpog3wy