banner
Nagi-ovo

Nagi-ovo

Breezing homepage: [nagi.fun](nagi.fun)
github

2024年度のまとめ

2024 年は私が深層学習に触れた最初の年であり、大規模モデルの分野に入った最初の年でもあります。もしかしたら未来のある日、振り返ってみると、今年は多くの重要な選択をした年になるかもしれません。

まずは Coding の年度まとめを紹介します:

image

北京の普通 211 人工知能専攻に在籍し、最初の 2 年間は FPS ゲームの段位を専門にしていましたが、その後フロントエンド開発に強い興味を持ち、JS から React を学びました。その後、CS に興味を持ち始め、いくつかの公開講座を学ぶことになりました。4 年間の在校生活の回顧録を作成する予定ですが、自由に話せるように半年後に書き始めることにし、ここでは 2024 年の記録だけを残します。とにかく、今年の前半の私の考えは、開発レベルを向上させるために努力することでした。学士号を取得するか、海外で 1 年間の修士課程を受けて SDE になることを考えていました。専門科目の配置の影響を受けながら、AI と学術は私にとって非常に混乱した分野に見えました。GPT-4 を使ってコードを書く以外は、AI とはあまり接触しないつもりでした。

冬休み:深層学習に触れる#

大学 3 年生の下半期に DL の授業が始まるため、冬休みに少し早めに学ぶことにしました。以前 ML を学んでいたとき、西瓜書を読んでも理解できず、CS229 のような海外の公開講座や YouTube のチュートリアルが自分に合っていることに気づきました。Google で探した結果、Andrej Karpathy の nn-zero-to-hero チュートリアルを見つけて、本当に驚きました!最初の授業では、自動微分を実装することで深層学習の核心概念を理解しました。入門コースとして非常にお勧めです。bilibili にも焼肉版があります:

彼の指導の下、n-gram や word2vec から CNN まで一気に学びました。畳み込みニューラルネットワークという概念は、大学 1 年生のときに適当に入った研究グループの会議で既に耳にしていましたが、誰もが人間の言葉で大学 1 年生にこれらのモデルが何をしているのかを理解させることができませんでした。最後に、GPT2 モデルを自分の手で実装した瞬間、輝かしい世界への扉が私の目の前にゆっくりと開かれました。AI に対する私の態度は、心からの魅了に変わりました:ああ、私は ChatGPT という Killer APP の底の一端を覗くことができるのだと。

ここでの直感的な感覚は、前後端開発を学ぶ際に触れたツールチェーンや思考が DL を学ぶのに一定の助けになるということです。最も基本的なことは、環境を整える際に大まかな概念を持つことができ、他の分野からいくつかの直感を移行できることです。そのため、直系の学弟や学妹が私に学習ルートを相談する際、私は基本的に彼らに前 / 後端開発を少し学ぶように勧めています。これは学校教育が実践的な素養の育成に欠けていることを補うためでもあり、同時に視野を広げるためでもあります。

この時、@DIYgod 大佬のブログプラットフォーム xLog にも触れ、初めて使ってみたところ、個人ブログを Hexo+gh-page から xLog に移行することに決めました。美観や使いやすさ、自分でカスタマイズできる機能が充実しているだけでなく、最も重要なのはコミュニティのフィードバックが得られることです🥹
ぜひご覧ください!今年 MyGo を補完した後、アイコンとウェブサイトのアイコンは東京の阿農を使用しています🥰

https://blog.nagi.fun/

インターンシップ:外部者から見た大規模モデルの状況#

今年、Kaggle では LLM に関連するコンペティションが多数あり、Google がスポンサーの LLM Prompt Recovery コンペティションを重点的に取り組むことにしました。ここでは、皆がこのコンペティションについて混乱しているのを見て、大きな賭けをしました。その後、データに少し手を加え、運も手伝って最高で公表ランキング 2 位に達しました。その後、インターンシップと生活の二重のプレッシャーの下で投入する時間が減り、最後にはなんとか人生初の競技銀メダルを獲得しました。

3 月になると、プレッシャーが夏期インターンシップの単位にかかり、経験から学校が手配した企業は質が低いだろうと推測しました(後に結果が出て、言葉にできないほどの驚きがありました)。そのため、3 月末から BOSS に履歴書を送信し、中小企業の面接を受ける際には、大規模モデルとはあまり関係がないため考慮しませんでした。当時、Karpathy の授業を終え、Transformer や GPT2 を手で実装すれば大規模モデルのインターンシップが見つかると思っていましたが、学校のバックアップが不十分で、自分にも他の目立つ点やコネクションがなく、非常に苦しい渦に陥りました。大規模モデルの道は私にとって行き詰まっていると感じました。

その時、楼教主の Pony.ai のあるグループがこの分野に理解のあるインターン生を募集していることを知り、内部プロジェクトを完全にフォローする仕事でした。これは現在の私にとって最良の機会かもしれないと思い、履歴書を提出しました。大学 3 年生の下半期の授業は依然として学ぶ価値がありませんでしたが、幸いにも先生たちは出席の要求が比較的低かったため、友好的にコミュニケーションをとった後、直接インターンシップに全力を注ぎました。毎週ほぼ 4-5 日出席し、往復通勤に約 3 時間かかりました。振り返ってみると、確かに痛みと喜びのある日々でした。同僚やメンターはとても親切で、また専門知識を活かして人生初の 1 万元を稼ぎ、自分の未来に少し自信を取り戻しました。

仕事の内容は、内部データのラベリングタスクにおける大規模モデルのワークフローを調査することが主でした。初期段階では、膨大な API を調整して実験を行い、ワークフローを改善するだけでなく、最良のモデルを見つけることが最も重要でした。その間、各社の API は本当にいつでも利用可能で、ある企業は無痛でマルチスレッド呼び出しを補助してくれました。印象に残っているのは、字節の雲雀 & 豆包、Kimi、アリババのオープンソースとクローズドソースモデル Qwen、百度の Ernie、テンセントの混元などです。ベースラインは GPT-3.5(データが国外に出ることができないため、国産モデルまたはプライベートデプロイが必要)で、上記のモデルの中で唯一、OpenAI に近いタスク性能を持つのは Kimi でしたが、コストが高いため、他のモデルの調査に着手しました。この時、Kaggle の AI 数学コンペティションで DeepSeek-7B-Math を使用した際に非常に良い体験をし、深層求索という会社について知りました。同社はちょうど DeepSeek V2 を発表したばかりで、3 元 / 百万トークンの入力出力の価格設定に直接惹かれ、私のベンチマークでテストしたところ、性能は GPT-3.5 を大きく上回りました。指示に従う際に時折劣ることを除けば、完璧と言えるものでした。そのため、その期間、業務フローで使用されるモデルは DeepSeek に変わりました。

このセクションで外部者として大規模モデルの分野の発展を見ている理由は、私の仕事が LLM の核心アルゴリズムに触れず、具体的な応用を研究しているからです。しかし、私の実験結果から各社のモデルの真の能力と自分自身の真の実力を見ることができました(この業務は確かにモデルの指示遵守、情報抽出、推論能力を試すものであり、ランキングも lmsys と大差ありません)。これにより、各社のマーケティングに対して完全に鈍感になり、固定観念に基づいて将来の高得点モデルを否定することもできました。

その後、国内の大規模モデル企業が DeepSeek に続いて価格戦争を始め、現在の業務にとって非常に好都合です。もちろん、豆包や文心の値下げには関心がありませんが、Qwen の値下げ後は考慮リストに加えました。6 月、通義千問が Qwen2.0 オープンソースモデルを発表し、テスト後にアリババのオープンソースモデルがクローズドシリーズよりも遥かに優れている理由に疑問を持ち始めました(qwen-plus や qwen2.0 は高価な qwen-max よりも優れている印象で、この逆転現象は 8 月以降に消えました)。ここから、この 2 社のモデルに最も好感を持つようになり、DeepSeek も私の夢の情司となりました(高校から非常に近く、よく附中に寄ることができます🥹)。後に、彼ら 2 社は引き続き素晴らしい勢いを維持し、外国のオープンソースコミュニティでも高い議論を呼び起こしました。Qwen2.5/QwQ や最近の DeepSeek V3 が先頭に立ち、多くの人がこれら 2 つのモデルを Cursor で使用することを受け入れていることからも、その一端が見えます。

その間、帰国してインターンシップをしている@JerryYin777と会い、彼との会話は本当に情報豊かで、LLM 分野の知識、学習ルート、面白い話をたくさん知ることができました。機会があればまた食事に行きたいです!

本来は夏の研究を探す予定でしたが、いろいろな理由で実現できず、8 月までずっとインターンシップを続けました。

image

退職日の記念写真。会社の環境と雰囲気はとても良く、次回もまた来たいです:)

知識の補充と研究#

インターンシップの間、Python バックエンド、LLM アプリケーションの実装と性能評価に加えて、モデルアーキテクチャやトレーニングプロセスなどの知識も学びました。今振り返ると、これらはすべて最も基本的な内容であり、unsloth を実行する LoRA 微調整 7B スクリプトを満足して実行することができました。それに加えて、しばらくの間、会社がプライベートデプロイを調査する必要があったため、vLLM などを研究し、自分を学びながらアウトプットするように強制し、DataWhale の llm-deploy プロジェクトに触れ、その中の同時処理部分のチュートリアルを担当しました。この機会を借りて、mlsys 分野の知識の空白を大幅に補充しました。

しかし、依然として学習と発展のルートについて非常に迷っていました。幸いにも、知乎を見ているとこのような記事を見つけました:

Quokka:私は大規模モデルの経験がありませんが、チャンスをいただけますか?

最も巧妙なのは、大佬が夢の情司 DeepSeek で働いていることです。そのため、彼が記事の最後に述べたアドバイスを苦い教訓として毎日読み返し、自分を奮い立たせています。今、進捗を見返してみると:

  • A. 2 台の 2080Ti で異なるフローアルゴリズムの性能を実装し比較した:DeepSeed や Megetron の原理を学んだ後、最近関連する内容を出力する準備をしています;
  • B. Triton を使っていくつかのオペレーターを自分で実装した:含まれているがこれに限らず、凪 ovo:Triton 初体験:Softmax 前向きカーネルの実装を含み、最近の学習後に GitHub リポジトリに整理する予定です;
  • C. 異なる大規模モデルで使用されるトークナイザーの違いを説明できる:Karpathy のコースブログに記録されたLLM の進化史(六):トークナイザーの神秘を解き明かすを実現し、BPE を実装し、tiktoken のいくつかの特徴を理解しました;
  • D. Python 以外の言語で良好な開発能力がある(例えば、いくつかのオープンソースプロジェクトのバックアップ):あるかもしれません?Modern C++ を一通り学び、少し前後端開発の能力があります。主に手を動かして学ぶことに意欲的です🥹

image

image

ルームメイトが AI の棋力をテストするのに良い助っ人になりました

AlphaZero を再現し、トレーニングの効果は良好で、主に O1 Reasoning の風に影響され、RL 自体にも非常に興味があります(AI 専攻を選んだとき、人工知能はゲーム AI のような強化学習だと思っていました)。

image

同時に強化学習の基礎を完全に学び、RLHF などの準備をしました

産業界でも体験し、正式な研究経験を得たいと思っています。学校の新しい AP の先生が私に CV 分野の機会を与えてくれ(同時に卒業研究としても)、現在までずっと働いています。卒業後にはこの経験について特別に書くつもりで、非常に親切な先生を宣伝したいと思っています🥳

大学 4 年生が始まった後、自分がずっと ADHD の症状に非常に合致していることに気づき、病院でほぼ確定診断を受けた後、逆に多くのことを開きました。これは身体の説明書を手に入れたようなものです。良い方向に考えると、これは自分が興味のある分野でハイパーフォーカスを維持するための利点でもあります。

また、進学については 1 年間の修士課程から PhD を考慮するようになりましたが、この選択が私に十分なモチベーションを与えるかどうかは不明です。そのため、GAP インターンシップ / RA を 1 年間行いながらゆっくり考えようと思っています(とはいえ、私の出版物も不足しているので、少し沈静化する必要があるかもしれません)。もちろん、自分自身をよく理解している限り、研究でも業界のインターンシップでも、私は価値のある仕事に従事したいと思っています。そのため、情司のインターンシップの機会があれば、私は直接全力を尽くすかもしれません(夢は持つべきです。結局、これは私の前進の動機の一つです)。

2025 年の展望#

  • 今年の目標を心の磨きに設定しました。多くの同年代や同分野の大佬を見て、避けられない焦りを感じますが、自分の経験から見ると、昨日の自分と比較することが最も簡単で、局所的な最小値に陥りやすいです。そのため、模範を追い求めることと自己向上の間のトレードオフをうまく行う必要があります。

  • エージェントについては、長期的な計画と局所的な固定ワークフローの間にもこのようなバランスがあります。できるだけ遠くを見つつ、各ステップをしっかりと歩んでいきたいと思います。小さなタスクも迅速かつ良好にこなす必要があります。

  • その他、ブログを出力しながら知乎や小紅書、X を運営し、genai の時代に表現能力を維持することも挑戦です。日常生活は完全に LLM に任せることはできません🥰

  • 基礎を固め、好奇心を持ち続けます。

これで年度の回顧は終了です。お読みいただきありがとうございました。皆さんにとって素晴らしい 2025 年になりますように!

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。