龙虾火了之后,一个词的翻译终于被官方定下来了:token,中文叫词元。
这个翻译其实并不新。早在 2021 年,国内 AI 圈就试图统一术语,将 token 译为「词元」[1],但没被广泛接受。
直到最近,「词元」开始出现在《人民日报》的经济版面,还有记者专门解释「什么是词元」。
大模型处理文字之前,要先把文本拆成小块,每一块就是一个 token。
英文有空格做天然分隔符,但切法不只是按空格劈开:词根、前缀、后缀都可能独立成块。「unbelievable」可能被拆成:un / believe / able。
中文没有空格和形态变化,由训练方自己决定怎么切。同一句话进不同模型,token 数可能差出好几倍。
所以,中文切分的复杂性,是 token 长期没有统一翻译的原因之一。更棘手的是:token 这个词不专属于大模型,它在不同领域有不同含义。
你用什么词称呼一件事,就是在声明它属于哪个世界,所以,token 必须要有合适、统一的中文翻译。
token 切分出的单位有时是字,有时是词,而词更能覆盖这种范围。
元在中文术语里有固定语感:最小的、不可再分的基础单位。词元的意思是:这就是语言处理中最底层的东西,没必要往下切了。
以上只是语言学上的理由,但仍然没有回答一个问题:为什么最近才定下来?
大模型最初是英文叙事。token、benchmark、context window……整套话语体系都来自英文世界。在那个阶段,我们能说的无非是「也追上来了」。
龙虾(AI Agent)爆发之后,变化不在技术,而在经济结构。
龙虾每一步都要重新喂上下文,极其烧 token,价格迅速变得敏感。与此同时,人们发现很多落地业务只是发邮件、整理文件、调用工具。这太讽刺了:越接近现实场景,模型越不需要聪明,便宜就行。
产业重心因此移动:从训练转向推理,从谁的模型更聪明转向谁能处理更多请求,还便宜。
当 token 变成可以大规模供应的资源,它就不再只是技术指标,而开始像一种工业品,一种可以出口的东西。
国家数据局披露,中国日均词元调用量从 2024 年初的 1000 亿增长到 2025 年 9 月的 40 万亿。《人民日报》报道,当周中国大模型调用量以 4.12 万亿词元首次超过美国的 2.94 万亿。
这些 token 数字在句子里的位置,很像出口了多少吨钢材这种表达。
这和以 OpenAI、Google、Anthropic 当主语的句式不同。那里用的是 benchmark(评判基准线);而词元消耗量听起来更像产能和出货。 于是出现了两层语言变化:
第一层是命名权。谁的语言定义单位,谁就在这个领域拥有话语权。
第二层是类别归属。「词元」悄悄把大模型从「科技产品」归入了「工业产能」。
慢慢地,AI 不再只是我们也能做,而变成了我们有多少产能。一旦它被纳入制造业叙事,衡量它的语言也会随之改变。
而是当大模型发展到今天,谁有资格用自己的语言来报这个数。
[1] 技术术语是否翻译有一条隐性规律:专有名称保留英文(Transformer、BERT),Token 通用是计量单位,需要有中文名。
[2] 语言学中有一个更精确的词:语素,汉语里最小的音义结合体,是构成词的直接基础。「词元」的「元」,语感与此接近。但语素与 token 并不完全对应:语素强调意义的最小单位,token 是模型切分的最小处理单位,两者有交叉,不能画等号,而且外界对它不熟悉。
评论区
共 6 条评论热门最新