Nagi-ovo

Breezing homepage: nagi.fun

PPO

cover

cover

“速通” PPO

Proximal Policy Optimization 终于到了这几年 NLP 领域中比较火热的 RL 算法之一了 On-Policy 算法中，采集数据用的策略和训练的策略是相同的，这样的问题是数据用一次后就得丢弃，然后再重新采集数据，训练速度很慢。 PPO 背后的直觉 …

此部落格數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。

區塊鏈編號
#61009
擁有者
0x6380302480224d53ec4c2c318d1c7be2c55a7582
交易雜湊值
創作 0xe99aa0c3...eadd5b56dd 最後更新 0x5e6c1cbc...422856f4e3
IPFS 位址
ipfs://QmNMspsYnpWWJMUaMwuEDV5rXHnfh4hPH13KoneGX6oUnt