新浪博客

“词元”·token到底是个啥?

2026-04-06 12:00阅读:
token正式命名为“词元”·token到底是个啥?
2026年03月25日 中科院物理所
这个词。不是流量,不是算力,也不是参数,token,也就是“词元”。
01 一夜之间,token怎么就成了“词元”?
在人民日报,它被明确写成了“词元”。一个技术圈的英文词,正在以中文名字进入更广泛的公共表达。
以前刷AI新闻时,token会跳过;现在,“词元”是个被理解、被讨论的新名词。
词元,跟我们平时说的字、词、句子,是什么关系?
在模型眼里,过程都围绕词元展开。
02 一句话解释,词元到底是个啥?
token,词元,是大模型处理语言时使用的基本单位。
人类看见的是一段表达,模型收到的是一连串被切开的信息小块。
模型不会像人那样“读懂一句话”,它要先把语言拆分,再把这些部分转成数字,最后才能继续计算。
如果把人类语言比作一条长长的项链,那词元就像项链上的珠子。
模型处理的是珠子,它并不先理解“意义”。词元是大模型世界里最基础、也最关键的那把尺子。
模型面对语言,跟你输入的问题、情绪和需求不同,模型处理的是一个个可以统计、编码、运算的词元。
它不是“字”、“词”或“句子”。
“词元”这个中文译名,不能把它理解成“词”。词元并不严格等于语文课本里的“词”,而是机器为了处理语言而切分出来的一种计算单位。
一个词元可能是一个字符,可能是个常见词,也可能是一个词的一部分。
词元不是语言的天然边界,而是模型“切”出来的颗粒。
对“token 数量”的理解,不能把 token换算成“多少个字、词”。
同一句话,换一个模型,词元数量可能就变了。因为不同模型的词元切分器不完全相同。
人类共享的是语言,模型共享的未必是同一套切法。
03 模型为什么一定要先把话“切一刀”?
04 为什么中文语境下,“词元”尤其值得理解?
在英文里,很多人会自然把 token 联想到 word,也就是“词”。但中文不是按空格天然分词的语言。汉字、词语、短语和语境之间的边界都更灵活。如果简单把 token 理解成“单词”,在中文场景下容易误解。
这也是“词元”这个译法的妙处:没有把 token 硬塞进已有的语法概念里,而是保留了
一点技术感,给普通人留出了理解空间。它在字和词之间,在语言学概念和计算概念之间,搭起了一座桥。它大概和“词”有关,但又不是传统意义上的词。
词元化方法,不是按传统词典那样死板切分,而是采用子词策略。
常见表达尽量整体保留,罕见表达再拆得更细。这样既能控制词表规模,又能兼顾表达能力。对于中文这种没有天然空格的语言,这种策略尤其关键。
理解词元,其实是在理解 AI 到底怎么‘读’你的话。很多人觉得 AI 神秘,一个重要原因是我们总是从结果去看它。它会聊天、会写作、会总结、会翻译,于是大家容易把它想象成一个藏在屏幕后面的“聪明大脑”。但如果你从词元这个入口重新看,大模型立刻就会变得更具体。它不是先有灵感,再给出答案;它是在大量词元之间不断计算下一步最可能出现什么。
这会让我们更真实地理解AI:模型像在和你自然交流,实际上却在完成一场高度精密的语言运算。
你看到的是话语流动,模型经历的是词元的排布、映射与生成。
未来越来越多的 AI 产品说明书、服务计费、性能指标、上下文限制、平台公告,都会不断提到“词元”这个单位。它很可能会像“流量”“像素”“带宽”一样,慢慢成为数字生活里必须认识的新词。
说到底,词元让我们看见了 AI 的底层节奏。
词元是人工智能把人类语言翻译成机器可处理形式时所使用的基本单位。
它一头连着文字,一头连着数字;一头连着理解,一头连着计算;一头连着技术原理,一头连着商业现实。
你看到的是一句完整的话,模型面对的却是一串可以分割、编号和运算的词元。
而“词元”这个中文名字之所以重要,因为它让更多人第一次有机会用中文、用日常经验,去理解大模型世界里最基础却最关键的一块砖。
你并不一定要学会训练模型,但只要理解了词元,就已经摸到了 AI 时代语言计算的门把手。

我的更多文章

下载客户端阅读体验更佳

APP专享