banner
Nagi-ovo

Nagi-ovo

Breezing homepage: [nagi.fun](nagi.fun)
github

2024 年度總結

2024 是我接觸深度學習的第一年,也是進入大模型領域的第一年,也許未來某天回頭看,今年會是做出眾多重要選擇的一年。

先上一下 Coding 的年度總結:

image

坐標北京普通 211 人工智能專業,前兩年專攻 FPS 遊戲段位,後對前端開發興趣濃厚,從 JS 學到 React,後對 CS 產生興趣並開始學一些公開課則是後話。計劃做一個四年在校生活的回憶錄,為了能暢所欲言就留到半年後再動筆,這裡就只做 2024 年的記錄。總之,在今年前我的想法是努力提升開發水平,本科或者出國讀個一年碩後做 SDE,在專業課安排或多或少的影響下,AI 和學術在我眼中是一個很混亂的領域,除了用 GPT-4 幫忙寫代碼外不準備與 AI 有一點接觸。

寒假:接觸深度學習#

因為學校大三下要開 DL 課,所以準備寒假提前學一點。自從之前學 ML 發現西瓜書看得雲裡霧裡,而發現 CS229 之類的國外公開課 / YouTube 教程比較對自己胃口,在谷歌一通後找到了 Andrej Karpathy 的 nn-zero-to-hero 教程,實在是令人驚喜!第一課就通過實現自動微分讓我理解了深度學習的核心概念,十分推薦作為入門課程,b 站也有烤肉版:

在他的引導下,我一口氣從 n-gram、word2vec 學到 CNN。卷積神經網絡這個概念我在大一隨便進了個課題組的組會上已經耳熟能詳,但沒有一個人能用人話讓一個大一新生理解這些模型在做什麼。最後,當親手實現 GPT2 模型的那一刻,通往一個璀璨世界的大門在我眼前徐徐展開。我對 AI 的態度從變為由衷著迷:哦原來我竟能窺探到 ChatGPT 這個 Killer APP 的底層一隅。
這裡一個直觀的感受是學前後端開發時接觸到的工具鏈和思維會對學 DL 有一定幫助,最基本的就是配環境時能有個大概的概念,能從其它領域遷移一些直覺過來,因此直系學弟學妹來諮詢我學習路線時,我基本都會讓他們從學一點前 / 後端開發開始,以彌補學校教育對實踐素養培養的缺乏,也順便開開眼界。
這時也接觸到了 @DIYgod 大佬的博客平台 xLog,初嘗便毅然決然地把個人博客從 Hexo+gh-page 轉到了 xLog 上,除了美觀好用自定義功能支持全面之外,最重要的是有社區推流,能更好地提供給我正反饋🥹
歡迎參觀!今年補完 MyGo 後頭像和網站 Icon 都用的是東京阿農 🥰

https://blog.nagi.fun/

實習:局外人看大模型局勢#

今年 Kaggle 上 LLM 相關比賽眾多,選擇了谷歌贊助的一個 LLM Prompt Recovery 比賽作為重點投入對象,這裡完全是看在大家普遍對這個比賽一頭霧水,賭一手大力出奇跡。後面在數據上下了點功夫,在運氣加持下最高達到了公榜第二名。後面實習和生活的雙重壓力下投入時間減少,最後勉強壓線拿了人生中第一塊競賽銀牌。

到了 3 月份,壓力給到了暑期實習學分上,根據經驗推斷出學校安排的單位應該質量較低(後面結果出來故傲然一言難盡),故三月底開始在 BOSS 上投遞簡歷,故對於給面的一些中小公司,由於和大模型沒什麼關係就沒有考慮。當時天真的以為學完 Karpathy 的課,手撕了 Transformer、GPT2 就已經可以找到一份大模型實習了,不曾想學校背書能力不夠,自己也沒有其它亮點或 connection,陷入了很痛苦的漩渦,覺得大模型這條路對我來說已經走死了。

這時樓教主的 Pony.ai 有一個組想招一個對該領域有了解的實習生,工作內容是完整跟進一個內部項目,我覺得這也許是我當前階段最好的機會,並且功利来講能充實簡歷上的經歷,故接 offer。大三下學期課程依然不值得學習,但好在老師們普遍對出勤要求較低,故在友好溝通後直接 all in 實習,每周基本出勤 4-5 天,來回通勤接近 3h,回想起來確實是痛並快樂的一段日子,同事和 mentor 都很 nice,此外利用專業知識掙到了人生中第一個 1w,讓我對自己的未來重拾一點信心。

工作內容主要是調研大模型在內部數據標註任務的工作流,前期主要就是調海量的 API 來實驗,除了改善工作流,最重要的就是找到最好的模型。其間各家的 API 真的是隨叫隨到,有公司報銷可以無痛多線程調用,印象裡包括但不限於:字節的雲雀 & 豆包,Kimi,阿里的開源和閉源模型 Qwen,百度 Ernie,騰訊混元,至於 Baseline 則是 GPT-3.5(要求數據不能出境故需國產模型 or 私有化部署),上述模型裡唯一任務性能接近 OpenAI 的是 Kimi,但費用較高,因此開始著手調研其它模型。這時打 Kaggle 的 AI 數學競賽時用 DeepSeek-7B-Math 體驗很好,便了解到了深度求索這家公司,同時它們剛推出 DeepSeek V2,3rmb / 百萬 tokenk 輸入輸出的定價直接吸引了我,在我的 benchmark 裡測試發現性能遠超 GPT-3.5,除了指令遵循偶爾會差一點外堪稱完美。於是那段時間業務流水線裡跑的模型變成了 DeepSeek。

本節說是以局外人身份看大模型領域發展正是因為如此:我的工作中並不接觸到 LLM 的核心算法,而是在研究其具體應用,但是能從我的實驗結果中看到各家模型的真實能力和自身的真實實力(這個業務確實很考驗模型的指令遵循、信息抽取和推理能力,而且排名先後和 lmsys 大差不差),這讓我對各廠商的營銷完全脫敏,甚至可以靠刻板印象直接否定一些公司未來推出的高分刷榜模型。

至於後面,國內大模型廠商開始跟隨 DeepSeek 迎來價格戰,超級利好公司當前的業務。當然我並不關心豆包、文心的降價,但 Qwen 降價後變也列入了考慮名單內。6 月份,通義千問推出了 Qwen2.0 開源模型,測試後開始納悶為什麼阿里的開源模型遠遠好於閉源系列(如 qwen-plus,qwen2.0 甚至好於昂貴的 qwen-max,印象裡這一顛倒現象在 8 月後才消失)。從這裡開始對這兩家國內公司的模型最有好感,DeepSeek 也成了我的夢中情司(還離我高中非常近,可以經常附中了🥹)。事實證明後來它們兩家也繼續保持了出色的勢頭,在外國開源社區討論度也很高,以 Qwen2.5/QwQ 和近期 DeepSeek V3 為首,從很多人能接受把這兩個模型放到 Cursor 裡使用便可見一斑。

期間面基了回國實習的 @JerryYin777,和他聊天真的是非常 informative,了解了很多 LLM 領域的知識、學習路線和趣事。有機會再約飯!

本來計劃找個暑研但因種種原因沒有實現,所以一直實習到八月份。

image

離職當天的留念,公司環境和氛圍都很好,下次還來:)

知識惡補和科研#

實習其間除了 Python 後端、LLM 應用落地和性能評估之外也在學習模型架構、訓練流程等知識,現在看來這些都屬於最基本的八股,滿足於跑個 unsloth 實現的 LoRA 微調 7B 腳本。除此之外就是由於有一段時間公司要調研私有化部署,於是開始研究 vLLM 等,逼著自己去邊學邊輸出於是接觸到了 DataWhale 的 llm-deploy 項目,負責其中的並發部分教程,借此機會彌補了大量 mlsys 領域的知識空白。

但這會還是對於學習和發展路線十分迷茫,還好刷知乎看到了這篇文章:

Quokka:我沒有大模型經驗,可以給個機會嗎?

最巧的是,大佬正在夢中情司 DeepSeek 工作,於是我把他在文章結尾提到的建議當作 bitter lesson 一樣每天閱讀以鞭策自己,現在對照著看一下進度:

  • A. 在兩張 2080Ti 上實現和比較過不同的流水算法的性能:學了 DeepSeed,Megetron 原理後,準備最近產出一下相關內容;
  • B. 用 Triton 自己實現過一些算子:包括但不限於 凪 ovo:Triton 初嘗:實現 Softmax 前向內核,準備這段時間深入學習後整理到一個 GitHub repo 裡;
  • C. 能講出不同的大模型使用的 tokenizer 的差異:Karpathy 的課程博客記錄LLM 演進史 (六):揭開 Tokenizer 的神秘面紗,實現 BPE 和了解 tiktoken 中的一些特點;
  • D. 在 Python 以外的語言上有不錯的開發能力(例如某些開源項目背書):也許有?Modern C++ 過了一遍,有一點前後端開發能力,主要是願意去動手學🥹

image

image

舍友成了測試 AI 棋力的好幫手

復現了 AlphaZero,訓練效果不錯,主要是跟 O1 Reasoning 的風,並且對 RL 本身就很有興趣(選 AI 專業的時候以為人工智能就是遊戲 AI 一樣的強化學習)

image

同時完整學習了強化學習基礎,為 RLHF 等做準備

工業界也體驗了,想來一段正式的科研經歷。學校的一個新 AP 老師給了我一個 cv 領域的機會(同時也作為畢設),一直工作至今,畢業後肯定會專門寫一下這段經歷,並幫超級 nice 的老師宣傳一下 🥳

大四開學後發現自己一直以來非常符合 ADHD 的症狀,去醫院基本確診後反而看開了很多,相當於有了張身體的說明書。往好了想,這也是一個能讓自己在感興趣的領域保持 hyperfocus 的優勢。

同時升學方面從讀一年碩變為考慮 PhD,但不確定這個選擇能否帶給我足夠的動力,因此準備 GAP 實習 / RA 一年来慢慢看(話說回來我的 pub 也不夠,所以也許要沉澱一下),當然憑我對自己的了解,無論是科研還是業界實習,我都只想從事有價值的工作,因此如果能有情司的實習機會我可能直接 all in 了(夢想還是要有的,畢竟這還依然是我的前進動力之一)。

展望 2025#

  • 我把今年的目標定為磨練心性。在見識到眾多同齡、同領域的大佬後難免焦慮,而以自己親身經歷來看只與昨天的自己比較容易陷入局部最小,因此需要做好追逐榜樣 & 自我提升之間的 trade-off。

  • 對於 Agent,長遠的 planning 和局部的固定 workflow 之間也有這樣的權衡,我希望儘量往遠看的同時能走好每一步,小任務也要做的快做得好。

  • 至於其它,在輸出博客的同時運營下知乎 & 小紅書 & X,在 genai 的時代保持表達能力也是一個挑戰,畢竟日常生活還是不能完全交給 LLM 的 🥰

  • 鞏固基礎,保持好奇。

至此年度回憶結束,感謝閱讀,祝大家 Happy 2025 ~

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。