我们在使用AI时的Token到底是什么？

本文最后更新于32 天前，其中的信息可能已经过时，如有错误请发送邮件到2350047859@qq.com

这是一个在人工智能（特别是像 ChatGPT 这样的大语言模型）中非常基础且核心的概念。

简单来说，Token 是 AI 处理文本的最小单位。你可以把它想象成 AI 的“原子”或“乐高积木”。

1. Token 到底是什么？

虽然我们人类是通过“字”或“单词”来阅读的，但 AI 并不是直接阅读这行文字。它需要先将文本切分成一个个小块，这些小块就是 Token。
* 它不一定是一个完整的单词：
* 对于简单的单词（如 “apple”），它可能就是一个 Token。
* 对于复杂的单词（如 “smartphones”），它可能会被拆分成两个 Token：”smart” + “phones”。
* 它也不一定是一个汉字：
* 在中文里，一个汉字通常对应 1 到 2 个 Token（取决于具体的模型算法）。
AI 并不理解文本，它理解的是将 Token 转换成的数字序列。

2.例子

让我们看看 AI 是如何“看”一句话的：

英文示例

原文：“AI is amazing.”
* 人类视角： 3 个单词。
* AI 视角 (Token)： [AI] [ is] [ amaz] [ing] [.]
这句话虽然短，但可能被拆分为 5 个 Token。

中文示例

原文：“人工智能”
* 人类视角： 1 个词（4 个字）。
* AI 视角： 以前的模型可能会把它拆得很碎，但现代优化的模型（如 GPT-4）可能直接将其视为 [人工智能] 或 [人工] [智能]。

语言	文本	Token 估算	说明
英文	1000 个单词	约 1300 个 Token	英文单词常被拆解（如前缀、后缀）。
中文	1000 个汉字	约 700 - 1500 个 Token	波动较大，取决于模型对中文的优化程度。

3. 为什么 Token 很重要？

计算成本（它是“货币”）

当你使用 AI 的付费接口（API）时，计费通常不是按“次数”或“单词数”算的，而是按 Token 数量算的。
输入的问题算 Token，输出的答案也算 Token。两者相加就是你的总花费。

记忆限制（上下文窗口）

每个 AI 模型都有一个“最大 Token 限制”（Context Window）。
比如一个模型限制是 8,000 Token，这意味你发给它的所有对话历史 + 它回复的内容，加起来不能超过这个数。如果超过了，AI 就会“忘记”最早之前说过的话。

处理逻辑

AI 生成内容是“一个 Token 一个 Token”往外蹦的。这就是为什么你在用 ChatGPT 时，字是一个个打出来的，而不是整段直接显示的。它是在预测：“根据前面的内容，下一个概率最高的 Token 是什么？”

总结

Token 不等于 单词/汉字。
它是 AI 理解和生成语言的基本切片单位。
它是衡量 AI 使用成本和记忆容量的标准。
可以将token简单理解为，AI眼中的”单词“。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

1. Token 到底是什么？

2.例子

英文示例

中文示例

3. 为什么 Token 很重要？

计算成本（它是“货币”）

记忆限制（上下文窗口）

处理逻辑

总结

评论

发送评论编辑评论

1. Token 到底是什么？

2.例子

英文示例

中文示例

3. 为什么 Token 很重要？

计算成本（它是“货币”）

记忆限制（上下文窗口）

处理逻辑

总结

评论

发送评论 编辑评论

推荐文章

发送评论编辑评论