词 元
“词元”是自然语言处理(NLP)和大语言模型中的一个核心概念。
简单来说,词元是模型处理文本时的最小基本单位。它不是我们日常理解的一个字或一个词,而是模型在训练和推理时真正“看到”和“生成”的原子单元。
核心理解:词元 ≠ 单词
常见的误解是把词元等同于单词或汉字。实际上,模型内部处理时,会根据一个预设的词元表(Vocabulary),把输入文本切分成词元序列。这个切分过程叫做分词(Tokenization)。
不同的切分粒度
不同模型使用的分词器不同,切分方式也各异:
按词切分 (Word-level):把每个单词作为一个词元。比如 “I love you” → ['I', 'love', 'you']。缺点是词表会非常大(需要包含所有变形、生僻词),且无法处理未登录词(如“新冠”这种新词)。
按字符切分 (Character-level):把每个字符作为一个词元。比如 “hello” →['h','e','l','l','o']。缺点是序列会变得极长,模型难以学习到单词级的语义。
按子词切分 (Subword-level):这是当前主流大模型(如GPT、LLaMA)使用的最佳实践。它巧妙地平衡了上述两种方法:
常用词保留为完整词元(高效)。
罕见词或新词会被切分成更常见的子词片段(处理未知词能力强)。
例如:“unhappiness
“词元”是自然语言处理(NLP)和大语言模型中的一个核心概念。
简单来说,词元是模型处理文本时的最小基本单位。它不是我们日常理解的一个字或一个词,而是模型在训练和推理时真正“看到”和“生成”的原子单元。
核心理解:词元 ≠ 单词
常见的误解是把词元等同于单词或汉字。实际上,模型内部处理时,会根据一个预设的词元表(Vocabulary),把输入文本切分成词元序列。这个切分过程叫做分词(Tokenization)。
不同的切分粒度
不同模型使用的分词器不同,切分方式也各异:
按词切分 (Word-level):把每个单词作为一个词元。比如 “I love you” → ['I', 'love', 'you']。缺点是词表会非常大(需要包含所有变形、生僻词),且无法处理未登录词(如“新冠”这种新词)。
按字符切分 (Character-level):把每个字符作为一个词元。比如 “hello” →['h','e','l','l','o']。缺点是序列会变得极长,模型难以学习到单词级的语义。
按子词切分 (Subword-level):这是当前主流大模型(如GPT、LLaMA)使用的最佳实践。它巧妙地平衡了上述两种方法:
常用词保留为完整词元(高效)。
罕见词或新词会被切分成更常见的子词片段(处理未知词能力强)。
例如:“unhappiness
