Nagi-ovo

Breezing homepage: nagi.fun

LLM

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

从 RL 来，到 RLHF 去

本文主要基于 Umar Jamil 的课程^{[1]}进行学习和记录。我们的目标是让 LLM 的行为与我们的期望的输出相一致，RLHF 则是最著名的技术之一。其标准流程涉及四个模型（听上去就很占显存，所以很多方法是去掉部分模型），这里只需记得一共需要四个即可：Reward…

深度学习15 分钟

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

用 Rust 实现简单 LLM 推理

在 B 站偶然刷到清华大学主办的大模型与人工智能系统训练营，果断报名参加。计划利用春节返乡时间通过实践巩固 LLM Inference 的理论知识，恰逢学校 VPN 故障无法科研，正好整理学习笔记。关于 Rust 语言，大三时曾两度尝试入门（某圣经教材劝退警告…

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

LLM 演进史(六)：揭开 Tokenizer 的神秘面纱

Tokenizer 是 LLM 中很重要但又没那么 fancy 的组件，在本系列之前的语言模型建模中，tokenizer 的实现方式是字符级的，将所有可能出现的 65 种字符制作嵌入表，然后用 embedding layer 对训练集进行编码向量化。而实践中…

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

LLM演进史(五)：构筑自注意力之路——从Transformer到GPT的语言模型未来

前置知识：前面的 micrograd、makemore 系列课程（可选），熟悉 Python，微积分和统计学的基本概念目标：理解和欣赏 GPT 的工作原理你可能需要的资料： Colab Notebook 地址 Twitter 上看到的一份很细致的笔记，比我写得好在…

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

微调之道

选择 LLM 完成一个 NLP 任务，如何下手？从下图中就能很好的明白哪个操作适合完成你当前的任务：如果你有时间和大量数据，你完全可以重新训练模型；一定量的数据，可以对预训练模型进行微调；数据不多，最好的选择是 “in context learning”，上下文学习…

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

LLM演进史(四)：WaveNet——序列模型的卷积革新

本节内容的源代码仓库。我们在前面的部分搭建了一个多层感知机字符级的语言模型，现在是时候把它的结构变的更复杂了。现在的目标是，输入序列能够输入更多字符，而不是现在的 3 个。除此之外，我们不想把它们都放到一个隐藏层中，避免压缩太多信息。这样得到一个类似WaveNet的更深的模型。…

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

GPT的现状

本文是对 Andrej Karpathy 的在 2023 年 3 月份的 Microsoft Build 演讲的整理。演讲 Beamer 可见于：https://karpathy.ai/stateofgpt.pdf 演讲介绍了 GPT 的训练过程，发展地步，当前的 LLM…

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

LLM演进史(二)：词嵌入——多层感知器与语言的深层连接

本节的源代码仓库地址本文算是训练语言模型的经典之作，Bengio 将神经网络引入语言模型的训练中，并得到了词嵌入这个副产物。词嵌入对后面深度学习在自然语言处理方面有很大的贡献，也是获取词的语义特征的有效方法。论文的提出源于解决原词向量（one-hot 表示…

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

cover

LLM演进史(一)：Bigram的简洁之道

本节的源代码仓库地址前面我们通过实现micrograd，弄明白了梯度的意义和如何优化。现在我们可以进入到语言模型的学习阶段，了解初级阶段的语言模型是如何设计、建模的。 Bigram (一个字符通过一个计数的查找表来预测下一个字符。) MLP, 根据 Bengio et al…

此博客数据所有权由区块链加密技术和智能合约保障仅归创作者所有。

区块链标识
#61009
所有者
0x6380302480224d53ec4c2c318d1c7be2c55a7582
交易哈希
创作 0xe99aa0c3...eadd5b56dd 最后更新 0x5e6c1cbc...422856f4e3
IPFS 地址
ipfs://QmNMspsYnpWWJMUaMwuEDV5rXHnfh4hPH13KoneGX6oUnt