2 posts
从零开始构建 Transformer 架构,深入理解自注意力机制、多头注意力、残差连接和层归一化等核心组件。
整理 Andrej Karpathy 在 Microsoft Build 2023 的演讲,深入理解 GPT 的训练过程、发展现状、当前 LLM 生态以及未来展望。