Nagi-ovo
关注
Breezing homepage: nagi.fun
164
关注者
19
正在关注
赞助
主页
归档
作品集
日寄
友链
NLP
最新
最热
最多评论
LLM 演进史(六):揭开 Tokenizer 的神秘面纱
Tokenizer 是 LLM 中很重要但又没那么 fancy 的组件,在本系列之前的语言模型建模中,tokenizer 的实现方式是字符级的,将所有可能出现的 65 种字符制作嵌入表,然后用 embedding layer 对训练集进行编码向量化。而实践中…
LLM
15 分钟
1 年前
此博客数据所有权由区块链加密技术和智能合约保障仅归创作者所有。
区块链标识
#61009
所有者
0x6380302480224d53ec4c2c318d1c7be2c55a7582
交易哈希
创作 0xe99aa0c3...eadd5b56dd
最后更新 0x5e6c1cbc...422856f4e3
IPFS 地址
ipfs://QmNMspsYnpWWJMUaMwuEDV5rXHnfh4hPH13KoneGX6oUnt