Nagi-ovo

Breezing homepage: nagi.fun

cover

GitHub - Nagi-ovo/gemini-voyager: An all-in-one enhancement suite for Google Gemini - timeline navigation, folder management, prompt library, and chat export in one powerful extension.

An all-in-one enhancement suite for Google Gemini - timeline navigation, folder management, prompt library, and chat export in one powerful extension. - Nagi-ovo/gemini-voyager

cover

cover

cover

Ditching the SDEs: A Simpler Path with Flow Matching

https://www.youtube.com/watch?v=7cMzfkWFWhI 本文主要以该视频的教学逻辑为主线，结合讲解内容进行整理和阐述，如有错误欢迎在评论区纠正！ Flow Matching：让我们从第一性原理重塑生成模型好了，我们来聊聊 generative…

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

以 Paligemma 为例的视觉语言模型

感谢 Umar Jamil 在视频教程的中的精彩讲解视觉语言模型可以分为四类^{[1]}：将图像转为可以和文本 token 共同训练的嵌入特征，如 VisualBERT、SimVLM、CM3 and etc. 学习良好的图像嵌入，作为冻结的预训练预言模型的前缀，如…

深度学习59212 min

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

从 RL 来，到 RLHF 去

本文主要基于 Umar Jamil 的课程^{[1]}进行学习和记录。我们的目标是让 LLM 的行为与我们的期望的输出相一致，RLHF 则是最著名的技术之一。其标准流程涉及四个模型（听上去就很占显存，所以很多方法是去掉部分模型），这里只需记得一共需要四个即可：Reward…

深度学习54515 min

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

用 Rust 实现简单 LLM 推理

在 B 站偶然刷到清华大学主办的大模型与人工智能系统训练营，果断报名参加。计划利用春节返乡时间通过实践巩固 LLM Inference 的理论知识，恰逢学校 VPN 故障无法科研，正好整理学习笔记。关于 Rust 语言，大三时曾两度尝试入门（某圣经教材劝退警告…

cover

cover

cover

cover

cover

cover

2024 年度总结

2024 是我接触深度学习的第一年，也是进入大模型领域的第一年，也许未来某天回头看，今年会是做出众多重要选择的一年。先上一下 Coding 的年度总结：坐标北京普通 211 人工智能专业，前两年专攻 FPS 游戏段位，后面对前端开发兴趣浓厚，从 JS 学到…

年度总结11933

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

Diffusion 的直觉和数学

https://www.youtube.com/watch?v=HoKDTa5jHvg 本文主要以该视频的教学逻辑为主线，结合讲解内容进行整理和阐述，如有错误欢迎在评论区纠正！理论支持 Deep Unsupervised Learning using…

深度学习86610 min

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

Let's build AlphaZero

本文是对于 Sunrise：从头理解 AlphaZero，MCTS，Self-Play，UCB 等文章、视频教程和代码实现的消化与理解。本文将从 AlphaGo 的设计原理出发，通过深入理解 MCTS 和 Self-Play 这两个核心机制，逐步揭示如何构建一个能超越人类的…

深度学习118112 min

cover

cover

“速通” PPO

Proximal Policy Optimization 终于到了这几年 NLP 领域中比较火热的 RL 算法之一了 On-Policy 算法中，采集数据用的策略和训练的策略是相同的，这样的问题是数据用一次后就得丢弃，然后再重新采集数据，训练速度很慢。 PPO 背后的直觉 …

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

知识蒸馏入门学习

本文将尝试结合：入门 Demo：Knowledge Distillation Tutorial — PyTorch Tutorials 进阶学习：MIT 6.5940 Fall 2024 TinyML and Efficient Deep Learning Computing…

深度学习6557 min

cover

cover

cover

cover

破解 Follow 邀请码的历程

上水课逛 Follow 的 Discord 想撞个邀请码玩玩，奈何手速太慢，直接送的或者只 mask 一位数的等我看到的时候基本就没了。不过这时看到了下面的一道谜题：文件链接扫码结果是：邀请码藏在图片 “里” OK，成功激起挑战欲🤓 虽说明明知道不太可能是简单的在视觉…

cover

cover

cover

cover

cover

cover

cover

cover

Actor Critic 方法初探

方差问题策略梯度（Policy Gradient）方法因其直观和有效性而备受关注。我们之前探讨过Reinforce算法，它在许多任务中表现良好。然而，Reinforce 方法依赖于蒙特卡洛（Monte Carlo）采样来估计回报，这意味着我们需要使用整个回合的数据来计算回报…

actor-critic5766 min

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

从 DQN 到 Policy Gradient

复习 Q-Learning 是一种用于训练 Q 函数的算法，该action-value 函数决定了在特定状态下采取某一特定动作的价值。通过维护 Q 表来保存所有state-action pair value 的记忆。对于像《Space Invaders》这样的 Atari 游戏…

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

强化学习基础与Q-Learning

今年打 Kaggle 比赛用了 DeepSeek-Math-7B-RL 模型，学习时把 Claude 3.5 Sonnet 当作老师，这两个模型强大的原因都离不开 RL。隐约感觉这个领域的技术很强很美于是准备接触一下，奈何功底不扎实不好，看不懂 OpenAI Spinning…

cover

cover

cover

cover

cover

cover

cover

cover

LoRA in PyTorch

本文是对 GitHub - hkproj/pytorch-lora学习的总结。以前用过很多次 peft 库的 LoRA 微调，知道大概原理但没动手实现过，因此这个课程内容很戳我。ADHD 经典不消化掉知识就难受 Fine-Tuning 对象：预训练模型目的…

cover

cover

cover

cover

cover

cover

Vector Add in Triton

单线程版本逐元素相加： Triton 实现在 Triton 中，向量加法内核通过将向量划分为多个块（blocks），并在每个 Grid 中的线程（threads）并行计算，实现高效的向量加法操作。每个线程负责加载两个向量中对应位置的元素，进行相加并存储结果。核心步骤…

cover

cover

cover

cover

cover

Softmax in OpenAI Triton

本文是对 @sotadeeplearningtutorials9598 的 Youtube 教程学习的总结，感谢老师深入浅出的指导让我这个从未接触过 GPU 编程的小白能够编写出第一个有实际效果的 Kernel。 Softmax 是一种常用的激活函数…

cover

cover

cover

cover

Policy Gradient 入门学习

本文是对学习 Andrej Karpathy 的 Deep RL Bootcamp 及其博客的记录，博客链接：Deep Reinforcement Learning: Pong from Pixels RL 的进展并不主要由新奇惊人的想法推动: 2012 年的…

Ownership of this blog data is guaranteed by blockchain and smart contracts to the creator alone.

Blockchain ID
#61009
Owner
0x6380302480224d53ec4c2c318d1c7be2c55a7582
Transaction Hash
Creation 0xe99aa0c3...eadd5b56dd Last Update 0x5e6c1cbc...422856f4e3
IPFS Address
ipfs://QmNMspsYnpWWJMUaMwuEDV5rXHnfh4hPH13KoneGX6oUnt