Menu
Avatar
The menu of my blog
Quick Stats
Quests
30 Quests
Messages
2 Messages
Playback
5 Playback
Items
6 Items
Skills
2 Skills
Trace
1 Trace
Message

The Sword Art Online Utilities Project

Welcome, traveler. This is a personal blog built in the style of the legendary SAO game interface. Navigate through the menu to explore the journal, skills, and item logs.

© 2020-2026 Nagi-ovo | RSS | Breezing

Quests

クエスト

Active Quest List / Archiving...

去做机器人!AI本科毕业后的年度总结

去做机器人!AI本科毕业后的年度总结

2026年1月5日 22:35 12 min read

新年快乐🎆

年度总结
从头写一个博客:我的 Passion 还在吗?

从头写一个博客:我的 Passion 还在吗?

2026年1月1日 12 min read

圆十年前的一个梦,SAO 主题博客的制作和博文语法记录

designmdsvexsveltekit
Ditching the SDEs: A Simpler Path with Flow Matching

Ditching the SDEs: A Simpler Path with Flow Matching

2025年10月3日 00:11 35 min read

Flow Matching 给了我们一个全新的、更简单的视角来看待 generative modeling。我们不再考虑概率密度和分数,而是考虑向量场和流。

DLFlow-Matching
以 Paligemma 为例的视觉语言模型

以 Paligemma 为例的视觉语言模型

2025年5月22日 14:35 45 min read

感谢 Umar Jamil 在视频教程的中的精彩讲解。视觉语言模型可以分为四类,本文以 Paligemma 为例深入解析 VLM 的架构和实现。

深度学习多模态
从 RL 来,到 RLHF 去

从 RL 来,到 RLHF 去

2025年5月8日 14:15 50 min read

本文主要基于 Umar Jamil 的课程进行学习和记录。我们的目标是让 LLM 的行为与我们的期望的输出相一致,RLHF 则是最著名的技术之一。

深度学习RLHFLLM
用 Rust 实现简单 LLM 推理

用 Rust 实现简单 LLM 推理

2025年2月7日 14:48 40 min read

在 B 站偶然刷到清华大学主办的大模型与人工智能系统训练营,果断报名参加。计划利用春节返乡时间通过实践巩固 LLM Inference 的理论知识,恰逢学校 VPN 故障无法科研,正好整理学习笔记。

LLMRustmlsys
2024 年度总结

2024 年度总结

2025年1月1日 05:27 15 min read

2024 是我接触深度学习的第一年,也是进入大模型领域的第一年,也许未来某天回头看,今年会是做出众多重要选择的一年。

年度总结
Diffusion 的直觉和数学

Diffusion 的直觉和数学

2024年12月13日 10:02 40 min read

深入理解扩散模型的直觉原理和数学推导,从正向过程到逆向过程,掌握 DDPM 的核心思想和实现细节。

深度学习Diffusion
Let's build AlphaZero

Let's build AlphaZero

2024年11月26日 14:07 35 min read

从 AlphaGo 的设计原理出发,通过深入理解 MCTS 和 Self-Play 这两个核心机制,逐步揭示如何构建一个能超越人类的 AI 五子棋系统。

深度学习强化学习MCTSSelf-Play
"速通" PPO

"速通" PPO

2024年11月14日 07:31 25 min read

快速理解 PPO(Proximal Policy Optimization)算法的核心思想和实现细节,掌握现代强化学习的重要方法。

RLPPO深度学习
知识蒸馏入门学习

知识蒸馏入门学习

2024年11月3日 14:56 35 min read

学习知识蒸馏的基本原理,了解如何将大模型(教师)的知识传递给小模型(学生),实现模型压缩和加速。

深度学习知识蒸镏
破解 Follow 邀请码的历程

破解 Follow 邀请码的历程

2024年10月31日 07:05 5 min read

记录破解 Follow 邀请码的完整过程,学习 LSB 隐写术和 StegOnline 工具的使用。

Follow
Actor Critic 方法初探

Actor Critic 方法初探

2024年10月10日 14:18 25 min read

学习 Actor-Critic 方法,结合策略梯度(Actor)和价值函数(Critic)的优势,实现更高效的强化学习。

actor-critic强化学习RL
从 DQN 到 Policy Gradient

从 DQN 到 Policy Gradient

2024年10月6日 10:45 30 min read

探索从基于值的方法(DQN)到基于策略的方法(Policy Gradient)的演进,理解两种方法的区别和联系。

RL强化学习
强化学习基础与 Q-Learning

强化学习基础与 Q-Learning

2024年10月2日 18:17 40 min read

从零开始学习强化学习的基础概念,深入理解 Q-Learning 算法及其在离散动作空间中的应用。

RLAI
LoRA in PyTorch

LoRA in PyTorch

2024年10月1日 17:32 25 min read

学习如何在 PyTorch 中实现 LoRA(Low-Rank Adaptation),一种参数高效的微调方法。

LoRAPEFTPyTorch
Vector Add in Triton

Vector Add in Triton

2024年9月19日 15:06 20 min read

从最简单的向量加法开始,学习 Triton 内核的编写和性能调优技巧。

TritonDeep LearningAI
Softmax in OpenAI Triton

Softmax in OpenAI Triton

2024年9月14日 17:41 30 min read

学习如何使用 OpenAI Triton 编写高效的 GPU 内核,实现 Softmax 操作并理解 Triton 的编程模型。

Triton深度学习Python
Policy Gradient 入门学习

Policy Gradient 入门学习

2024年9月12日 12:03 25 min read

学习策略梯度方法的基本原理和实现,了解如何通过直接优化策略来训练强化学习智能体。

RL强化学习Policy Gradient
WSL2 配置 Ubuntu20.04

WSL2 配置 Ubuntu20.04

2024年8月20日 08:51 10 min read

记录在 Windows 11 上配置 WSL2 和 Ubuntu 20.04 的完整过程,包括迁移硬盘、配置网络和深度学习环境。

WSL环境配置
LLM 演进史 (六):揭开 Tokenizer 的神秘面纱

LLM 演进史 (六):揭开 Tokenizer 的神秘面纱

2024年7月4日 16:42 50 min read

深入理解 Tokenizer 的工作原理,学习 BPE 算法、GPT 系列的分词策略以及 SentencePiece 的实现细节。

LLMAITokenizerBPENLP
LLM 演进史 (五):构筑自注意力之路——从 Transformer 到 GPT 的语言模型未来

LLM 演进史 (五):构筑自注意力之路——从 Transformer 到 GPT 的语言模型未来

2024年3月20日 08:49 60 min read

从零开始构建 Transformer 架构,深入理解自注意力机制、多头注意力、残差连接和层归一化等核心组件。

LLMGPT深度学习Transformer
微调之道

微调之道

2024年3月15日 14:46 20 min read

学习如何在有限的显存条件下微调大语言模型,掌握半精度、量化、LoRA 和 QLoRA 等关键技术。

AILLM微调
LLM 演进史 (四):WaveNet——序列模型的卷积革新

LLM 演进史 (四):WaveNet——序列模型的卷积革新

2024年3月9日 16:01 30 min read

学习 WaveNet 的渐进式融合思想,实现树状分层结构来构建更深的语言模型。

AI深度学习LLM
LLM 演进史 (三):批归一化——激活与梯度的统计调和

LLM 演进史 (三):批归一化——激活与梯度的统计调和

2024年2月29日 15:44 35 min read

深入理解神经网络训练中的激活和梯度问题,学习批归一化如何解决深层网络的训练难题。

深度学习AI
GPT 的现状

GPT 的现状

2024年2月18日 20:16 30 min read

整理 Andrej Karpathy 在 Microsoft Build 2023 的演讲,深入理解 GPT 的训练过程、发展现状、当前 LLM 生态以及未来展望。

AIChatGPTLLMGPT
LLM 演进史 (二):词嵌入——多层感知器与语言的深层连接

LLM 演进史 (二):词嵌入——多层感知器与语言的深层连接

2024年2月17日 21:48 25 min read

探索 Bengio 的经典论文,了解如何通过神经网络学习词的分布式表示,以及如何构建一个神经概率语言模型 (NPLM)。

AILLM深度学习词嵌入神经网络
LLM 演进史 (一):Bigram 的简洁之道

LLM 演进史 (一):Bigram 的简洁之道

2024年2月17日 11:05 20 min read

从最简单的 Bigram 模型开始,探索语言模型的基础。了解如何通过计数和概率分布来预测下一个字符,以及如何用神经网络框架实现相同的效果。

AI深度学习LLM语言模型
从 0 实现一个极简的自动微分框架

从 0 实现一个极简的自动微分框架

2024年2月16日 10:28 25 min read

学习 Andrej Karpathy 的 micrograd 项目,从零开始实现一个自动微分框架,深入理解反向传播和链式法则的核心原理。

深度学习AIPyTorch自动微分神经网络
Turning 21

Turning 21

2023年12月1日 16:00 5 min read

21 岁生日总结,回顾这一年来的成长与收获。

祝你生日快乐
Session 00:00:00