Nagi-ovo

Breezing homepage: nagi.fun

强化学习

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

Let's build AlphaZero

本文是对于 Sunrise：从头理解 AlphaZero，MCTS，Self-Play，UCB 等文章、视频教程和代码实现的消化与理解。本文将从 AlphaGo 的设计原理出发，通过深入理解 MCTS 和 Self-Play 这两个核心机制，逐步揭示如何构建一个能超越人类的…

深度学习12 min

cover

cover

cover

cover

cover

cover

cover

cover

Actor Critic 方法初探

方差问题策略梯度（Policy Gradient）方法因其直观和有效性而备受关注。我们之前探讨过Reinforce算法，它在许多任务中表现良好。然而，Reinforce 方法依赖于蒙特卡洛（Monte Carlo）采样来估计回报，这意味着我们需要使用整个回合的数据来计算回报…

actor-critic6 min

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

从 DQN 到 Policy Gradient

复习 Q-Learning 是一种用于训练 Q 函数的算法，该action-value 函数决定了在特定状态下采取某一特定动作的价值。通过维护 Q 表来保存所有state-action pair value 的记忆。对于像《Space Invaders》这样的 Atari 游戏…

cover

cover

cover

cover

Policy Gradient 入门学习

本文是对学习 Andrej Karpathy 的 Deep RL Bootcamp 及其博客的记录，博客链接：Deep Reinforcement Learning: Pong from Pixels RL 的进展并不主要由新奇惊人的想法推动: 2012 年的…

Ownership of this blog data is guaranteed by blockchain and smart contracts to the creator alone.

Blockchain ID
#61009
Owner
0x6380302480224d53ec4c2c318d1c7be2c55a7582
Transaction Hash
Creation 0xe99aa0c3...eadd5b56dd Last Update 0x5e6c1cbc...422856f4e3
IPFS Address
ipfs://QmNMspsYnpWWJMUaMwuEDV5rXHnfh4hPH13KoneGX6oUnt