AI技术·2026年4月21日· 约 4 分钟

我不再触发 Claude 用量限制——改了 10 个习惯

大多数人抱怨 Claude 的限制太严，但问题往往出在自己浪费了 token。本文总结了 10 个省 token 的实用习惯：编辑代替追问、定期开新对话、合并任务、善用 Projects 缓存、按需选模型等，帮你把额度用在刀刃上。

大多数人抱怨 Claude 的限制太严。我以前也抱怨。后来我意识到，Claude 计数的不是消息条数，而是 token 数。你只需要合理使用 token，但并不是每个人都知道怎么做，结果浪费了大量 token 和金钱。

我深入研究了这个问题，整理了一份能帮你省下大量 token 的最佳习惯清单。

1. 编辑消息，而不是追加新消息

当 Claude 没有理解你的意思时，你可能倾向于发送："不是，我的意思是……"或者"呃，这不是我想要的……"

别这样做。

每一条后续消息都会被加入对话历史。Claude 每一轮都会重新读取全部内容——把 token 浪费在根本没有帮助的上下文上。

每条消息的 token 成本 = 之前所有消息 + 你的新消息。公式：总 token = S × N(N+1) / 2（S = 每次交互的平均 token 数，N = 消息数）

按每次交互约 500 token 计算：5 条消息：7.5K token。10 条消息：27.5K token。20 条消息：105K token。30 条消息：232K token。第 30 条消息的成本是第 1 条的 31 倍。

正确做法：点击原始消息的"编辑"→ 修改 → 重新生成。旧的交互会被替换，而不是层层堆叠。

编辑消息示意图

修复 prompt，不要喂养历史。

2. 定期开新对话，别让历史膨胀

上一节展示了 token 成本如何随消息数增长。理想情况下，每 15-20 条消息就应该开始一个新对话。

想象一下一个 100+ 条消息的对话。按每次交互约 500 token 计算，那就是超过 250 万 token 被消耗——其中绝大部分只是在重新读取旧历史。一位开发者追踪了自己的用量，发现 98.5% 的 token 花在了重新读取历史上，只有 1.5% 用于实际输出结果。

token 用量分析

Aniket Parihar 在 LinkedIn 上的帖子。

当对话变长时，让 Claude 总结所有内容 → 复制 → 新对话 → 作为第一条消息粘贴。

3. 合并任务到一个 prompt

很多人认为把问题拆成多条消息会得到更好的结果。但几乎总是相反的。三个独立的 prompt = 三次上下文加载。一个包含三个任务的 prompt = 一次上下文加载。你在两方面都省了：更少的上下文重载，离限制更远。

不要这样写："总结这篇文章"，然后"列出要点"，然后"建议一个标题"。

而是这样写："总结这篇文章，列出要点，并建议一个标题。"

加分项：答案往往更好，因为 Claude 能立即看到全貌。三个问题，一个 prompt，永远如此。

4. 善用 Projects 缓存文件

如果你把同一个 PDF 上传到多个对话，Claude 每次都会重新 tokenize 那个文档。

改用 Projects 功能。上传一次文件 → 它会被缓存。项目内的每个新对话都直接引用它，不再额外消耗 token。

缓存的项目内容在反复访问时不会消耗你的额度。如果你经常处理合同、简报、风格指南或任何长文档——仅这一项就能大幅削减 token 支出。

5. 保存你的角色设定，别每次重复

没有保存上下文的每个新对话都会浪费 3-5 条消息做设置："我是做市场的，我的写作风格比较轻松，我喜欢短段落……"

你可能见过有人每次 prompt 都以"扮演一个……"开头——那就是在反复烧 token。Claude 可以永久记住这些。

去"设置" → "记忆和用户设置"。一次性保存你的角色、沟通风格和偏好设置。Claude 会自动应用到每个新对话。

6. 不需要工具时关掉工具

网页搜索、连接器和"探索"模式——所有这些都会给每条回复增加 token，即使你根本不需要。

只是在写自己的内容？关掉"搜索和工具"功能。"高级思考"功能也消耗 token。默认保持关闭。只有在第一次尝试不满意时才打开它。

规则：如果你不是有意打开某个功能，就关掉它。

7. 简单任务用 Haiku

语法检查、头脑风暴、格式化、快速翻译、简短回答——Haiku 能处理所有这些，成本远低于 Sonnet 或 Opus。

选择正确的模型是你每天做的最重要的决定。Haiku 负责草稿和简单任务 → 能释放 50-70% 的预算给真正需要强大模型的任务。

心智模型：Haiku → 快速任务，低成本。Sonnet → 真正的工作，中等成本。Opus → 深度思考，高成本。

简单任务不需要强大的模型。

8. 利用 5 小时滚动窗口

Claude 系统使用滚动 5 小时窗口。它不会在午夜重置——你的限额是逐步释放的。上午 9 点发的消息到下午 2 点就不再计算了。

如果你在一个上午就用完了全部限额，那你的每日限额大部分其实是闲置的。

把一天分成 2-3 个时段：上午、下午和晚上。等你回来时，之前的用量已经不再计算，你有了一个新的限额。

5 小时滚动窗口

9. 避开高峰时段

从 2026 年 3 月 26 日起：Anthropic 在高峰时段会更快消耗你的 5 小时会话限额，即工作日太平洋时间上午 5:00 到 11:00 / 美东时间上午 8:00 到下午 2:00。

同样的查询、同样的对话——但在高峰时段，它对限额的影响更大。

你的每周限额不变，但分配方式变了。在晚上或周末运行资源密集型任务会显著拉长你的计划额度。

如果你不在美国（在欧洲、拉丁美洲或亚洲），高峰时段可能正好落在你的下午，所以要根据时区换算一下。

10. 开启超额计费

Pro、Max 5x 和 Max 20x 订阅用户可以在"设置" → "用量"部分开启"超额"功能。

当会话限额用完后，Claude 不会阻止你访问。它会切换到按 API 费率计费的模式。你可以设置月度消费上限来避免意外账单。

这不是为了省 token，而是为了不在最糟糕的时刻中断工作。

总结

一开始你可能很难遵守所有规则，但一旦能自动应用，你就几乎再也不会触发限额了。你甚至可以从 Max 计划降到普通计划——你的 token 会绰绰有余。

Claude 计数的不是消息，而是 token。

1. 编辑消息，而不是追加新消息

2. 定期开新对话，别让历史膨胀

3. 合并任务到一个 prompt

4. 善用 Projects 缓存文件

5. 保存你的角色设定，别每次重复

6. 不需要工具时关掉工具

7. 简单任务用 Haiku

8. 利用 5 小时滚动窗口

9. 避开高峰时段

10. 开启超额计费

总结

推荐阅读

大多数用户从未发现的 10 个 Hermes Agent 设置：把聊天 Agent 变成 24/7 自动化系统

一个程序员眼中的 AI 核心概念，讲透 LLM 、Agent 、MCP 、Skill 、RAG...

Claude Cowork 上手最佳实践

构建 Claude Code 的经验：我们如何使用 skills

使用 Claude Code：HTML为什么更有效？

Agent 框架中的上下文管理

延伸探索

更多 AI技术 文章

相关提示词

跟进 ProductHunt 热榜

更多 AI技术文章