我不再触发 Claude 用量限制——改了 10 个习惯
大多数人抱怨 Claude 的限制太严,但问题往往出在自己浪费了 token。本文总结了 10 个省 token 的实用习惯:编辑代替追问、定期开新对话、合并任务、善用 Projects 缓存、按需选模型等,帮你把额度用在刀刃上。
大多数人抱怨 Claude 的限制太严。我以前也抱怨。后来我意识到,Claude 计数的不是消息条数,而是 token 数。你只需要合理使用 token,但并不是每个人都知道怎么做,结果浪费了大量 token 和金钱。
我深入研究了这个问题,整理了一份能帮你省下大量 token 的最佳习惯清单。
1. 编辑消息,而不是追加新消息
当 Claude 没有理解你的意思时,你可能倾向于发送:"不是,我的意思是……"或者"呃,这不是我想要的……"
别这样做。
每一条后续消息都会被加入对话历史。Claude 每一轮都会重新读取全部内容——把 token 浪费在根本没有帮助的上下文上。
每条消息的 token 成本 = 之前所有消息 + 你的新消息。公式:总 token = S × N(N+1) / 2(S = 每次交互的平均 token 数,N = 消息数)
按每次交互约 500 token 计算:5 条消息:7.5K token。10 条消息:27.5K token。20 条消息:105K token。30 条消息:232K token。第 30 条消息的成本是第 1 条的 31 倍。
正确做法:点击原始消息的"编辑"→ 修改 → 重新生成。旧的交互会被替换,而不是层层堆叠。

修复 prompt,不要喂养历史。
2. 定期开新对话,别让历史膨胀
上一节展示了 token 成本如何随消息数增长。理想情况下,每 15-20 条消息就应该开始一个新对话。
想象一下一个 100+ 条消息的对话。按每次交互约 500 token 计算,那就是超过 250 万 token 被消耗——其中绝大部分只是在重新读取旧历史。一位开发者追踪了自己的用量,发现 98.5% 的 token 花在了重新读取历史上,只有 1.5% 用于实际输出结果。

Aniket Parihar 在 LinkedIn 上的帖子。
当对话变长时,让 Claude 总结所有内容 → 复制 → 新对话 → 作为第一条消息粘贴。
3. 合并任务到一个 prompt
很多人认为把问题拆成多条消息会得到更好的结果。但几乎总是相反的。三个独立的 prompt = 三次上下文加载。一个包含三个任务的 prompt = 一次上下文加载。你在两方面都省了:更少的上下文重载,离限制更远。
不要这样写:"总结这篇文章",然后"列出要点",然后"建议一个标题"。
而是这样写:"总结这篇文章,列出要点,并建议一个标题。"
加分项:答案往往更好,因为 Claude 能立即看到全貌。三个问题,一个 prompt,永远如此。
4. 善用 Projects 缓存文件
如果你把同一个 PDF 上传到多个对话,Claude 每次都会重新 tokenize 那个文档。
改用 Projects 功能。上传一次文件 → 它会被缓存。项目内的每个新对话都直接引用它,不再额外消耗 token。
缓存的项目内容在反复访问时不会消耗你的额度。如果你经常处理合同、简报、风格指南或任何长文档——仅这一项就能大幅削减 token 支出。
5. 保存你的角色设定,别每次重复
没有保存上下文的每个新对话都会浪费 3-5 条消息做设置:"我是做市场的,我的写作风格比较轻松,我喜欢短段落……"
你可能见过有人每次 prompt 都以"扮演一个……"开头——那就是在反复烧 token。Claude 可以永久记住这些。
去"设置" → "记忆和用户设置"。一次性保存你的角色、沟通风格和偏好设置。Claude 会自动应用到每个新对话。
6. 不需要工具时关掉工具
网页搜索、连接器和"探索"模式——所有这些都会给每条回复增加 token,即使你根本不需要。
只是在写自己的内容?关掉"搜索和工具"功能。"高级思考"功能也消耗 token。默认保持关闭。只有在第一次尝试不满意时才打开它。
规则:如果你不是有意打开某个功能,就关掉它。
7. 简单任务用 Haiku
语法检查、头脑风暴、格式化、快速翻译、简短回答——Haiku 能处理所有这些,成本远低于 Sonnet 或 Opus。
选择正确的模型是你每天做的最重要的决定。Haiku 负责草稿和简单任务 → 能释放 50-70% 的预算给真正需要强大模型的任务。
心智模型:Haiku → 快速任务,低成本。Sonnet → 真正的工作,中等成本。Opus → 深度思考,高成本。
简单任务不需要强大的模型。
8. 利用 5 小时滚动窗口
Claude 系统使用滚动 5 小时窗口。它不会在午夜重置——你的限额是逐步释放的。上午 9 点发的消息到下午 2 点就不再计算了。
如果你在一个上午就用完了全部限额,那你的每日限额大部分其实是闲置的。
把一天分成 2-3 个时段:上午、下午和晚上。等你回来时,之前的用量已经不再计算,你有了一个新的限额。

9. 避开高峰时段
从 2026 年 3 月 26 日起:Anthropic 在高峰时段会更快消耗你的 5 小时会话限额,即工作日太平洋时间上午 5:00 到 11:00 / 美东时间上午 8:00 到下午 2:00。
同样的查询、同样的对话——但在高峰时段,它对限额的影响更大。
你的每周限额不变,但分配方式变了。在晚上或周末运行资源密集型任务会显著拉长你的计划额度。
如果你不在美国(在欧洲、拉丁美洲或亚洲),高峰时段可能正好落在你的下午,所以要根据时区换算一下。
10. 开启超额计费
Pro、Max 5x 和 Max 20x 订阅用户可以在"设置" → "用量"部分开启"超额"功能。
当会话限额用完后,Claude 不会阻止你访问。它会切换到按 API 费率计费的模式。你可以设置月度消费上限来避免意外账单。
这不是为了省 token,而是为了不在最糟糕的时刻中断工作。
总结
一开始你可能很难遵守所有规则,但一旦能自动应用,你就几乎再也不会触发限额了。你甚至可以从 Max 计划降到普通计划——你的 token 会绰绰有余。
Claude 计数的不是消息,而是 token。





