token正式命名为“词元”·token到底是个啥?
2026年03月25日 中科院物理所
这个词。不是流量,不是算力,也不是参数,token,也就是“词元”。
01 一夜之间,token怎么就成了“词元”?
在人民日报,它被明确写成了“词元”。一个技术圈的英文词,正在以中文名字进入更广泛的公共表达。
以前刷AI新闻时,token会跳过;现在,“词元”是个被理解、被讨论的新名词。
词元,跟我们平时说的字、词、句子,是什么关系?
在模型眼里,过程都围绕词元展开。
02 一句话解释,词元到底是个啥?
token,词元,是大模型处理语言时使用的基本单位。
人类看见的是一段表达,模型收到的是一连串被切开的信息小块。
模型不会像人那样“读懂一句话”,它要先把语言拆分,再把这些部分转成数字,最后才能继续计算。
如果把人类语言比作一条长长的项链,那词元就像项链上的珠子。
模型处理的是珠子,它并不先理解“意义”。词元是大模型世界里最基础、也最关键的那把尺子。
模型面对语言,跟你输入的问题、情绪和需求不同,模型处理的是一个个可以统计、编码、运算的词元。
它不是“字”、“词”或“句子”。
“词元”这个中文译名,不能把它理解成“词”。词元并不严格等于语文课本里的“词”,而是机器为了处理语言而切分出来的一种计算单位。
一个词元可能是一个字符,可能是个常见词,也可能是一个词的一部分。
词元不是语言的天然边界,而是模型“切”出来的颗粒。
对“token 数量”的理解,不能把 token换算成“多少个字、词”。
同一句话,换一个模型,词元数量可能就变了。因为不同模型的词元切分器不完全相同。
人类共享的是语言,模型共享的未必是同一套切法。
03 模型为什么一定要先把话“切一刀”?
04 为什么中文语境下,“词元”尤其值得理解?
在英文里,很多人会自然把 token 联想到 word,也就是“词”。但中文不是按空格天然分词的语言。汉字、词语、短语和语境之间的边界都更灵活。如果简单把 token 理解成“单词”,在中文场景下容易误解。
这也是“词元”这个译法的妙处:没有把 token 硬塞进已有的语法概念里,而是保留了
2026年03月25日 中科院物理所
这个词。不是流量,不是算力,也不是参数,token,也就是“词元”。
01 一夜之间,token怎么就成了“词元”?
在人民日报,它被明确写成了“词元”。一个技术圈的英文词,正在以中文名字进入更广泛的公共表达。
以前刷AI新闻时,token会跳过;现在,“词元”是个被理解、被讨论的新名词。
词元,跟我们平时说的字、词、句子,是什么关系?
在模型眼里,过程都围绕词元展开。
02 一句话解释,词元到底是个啥?
token,词元,是大模型处理语言时使用的基本单位。
人类看见的是一段表达,模型收到的是一连串被切开的信息小块。
模型不会像人那样“读懂一句话”,它要先把语言拆分,再把这些部分转成数字,最后才能继续计算。
如果把人类语言比作一条长长的项链,那词元就像项链上的珠子。
模型处理的是珠子,它并不先理解“意义”。词元是大模型世界里最基础、也最关键的那把尺子。
模型面对语言,跟你输入的问题、情绪和需求不同,模型处理的是一个个可以统计、编码、运算的词元。
它不是“字”、“词”或“句子”。
“词元”这个中文译名,不能把它理解成“词”。词元并不严格等于语文课本里的“词”,而是机器为了处理语言而切分出来的一种计算单位。
一个词元可能是一个字符,可能是个常见词,也可能是一个词的一部分。
词元不是语言的天然边界,而是模型“切”出来的颗粒。
对“token 数量”的理解,不能把 token换算成“多少个字、词”。
同一句话,换一个模型,词元数量可能就变了。因为不同模型的词元切分器不完全相同。
人类共享的是语言,模型共享的未必是同一套切法。
03 模型为什么一定要先把话“切一刀”?
04 为什么中文语境下,“词元”尤其值得理解?
在英文里,很多人会自然把 token 联想到 word,也就是“词”。但中文不是按空格天然分词的语言。汉字、词语、短语和语境之间的边界都更灵活。如果简单把 token 理解成“单词”,在中文场景下容易误解。
这也是“词元”这个译法的妙处:没有把 token 硬塞进已有的语法概念里,而是保留了
