Gemini API 配额限制全解析:
RPM、TPM、RPD、429 报错与提升额度
Gemini API 的“额度”不是一个单一数字,而是由 RPM、TPM、RPD、项目层级、模型类型、Batch / Priority 等规则共同决定。很多人看到 429 报错时会以为 API Key 坏了,其实更多时候只是某一个维度触顶了。
这篇文章按真实排查路径讲清楚:官方配额怎么看、RPM / TPM / RPD 分别是什么意思、为什么会触发 429、免费层级和付费 Tier 有什么区别,以及国内开发者该怎么降低额度风险。具体数字会随模型和账号状态变化,最终请以 Gemini API Rate limits 官方文档 和你自己的 AI Studio 页面为准。
一、Gemini API 配额到底限制什么
官方 Rate limits 文档把配额拆成三个最常见的维度:Requests per minute、Tokens per minute 和 Requests per day。你可以把它理解成“每分钟能发多少次请求”“每分钟能处理多少输入 token”“每天最多能发多少次请求”。
| 指标 | 含义 | 常见触发场景 | 优化方向 |
|---|---|---|---|
| RPM | 每分钟请求数 | 并发太高、循环请求、多人同时调用 | 限流、队列、退避重试 |
| TPM | 每分钟输入 token 数 | 长文档、长上下文、批量总结 | 压缩上下文、分块处理、缓存结果 |
| RPD | 每天请求数 | 免费层级长时间跑脚本 | 控制任务量、升级付费层级 |
关键点:配额是按项目计算,不是按单个 API Key 计算。也就是说,同一个项目下创建多个 Key,并不能绕过项目级限流。
二、为什么会出现 429 Too Many Requests
429 的本质是“当前请求超过了某个限流维度”。它不一定代表 API Key 被封,也不一定代表账号不可用。只要 RPM、TPM、RPD 其中任意一个超了,都可能触发 rate limit error。
并发过高
多个用户或脚本同时请求,最容易打满 RPM。先把并发降下来,再观察错误是否减少。
上下文太长
一次性塞入长文档、网页全文或大段日志,会让 TPM 快速触顶。应先分块、摘要、去重。
日额度耗尽
免费层级长时间跑任务,可能在当天触达 RPD。RPD 通常按太平洋时间午夜重置。
429 排查路径
先定位是哪一个限流维度触顶
看 RPM
是否并发、循环请求或多用户同时调用。
看 TPM
是否一次传入长文档、网页全文或大上下文。
看 RPD
免费层级脚本跑太久,可能已经耗尽日请求。
看 Tier
确认项目账单、usage tier 和模型对应限制。
再优化
队列、缓存、压缩上下文,并给重试加退避。
如果你还没创建或管理过 Key,可以先看 Gemini API Key 获取与购买全攻略,把入口、账单和用量页先理清楚。
三、免费层级、Tier 1、Tier 2、Tier 3 有什么区别
Gemini API 的配额和项目的 usage tier 绑定。官方文档说明,项目使用量和账单消费提升后,会自动进入更高层级,从而获得更高配额。免费层级适合测试,生产项目通常需要绑定账单并进入付费层级。
| 层级 | 进入条件 | 适合谁 | 注意点 |
|---|---|---|---|
| Free | 活跃项目或免费试用 | 学习、demo、低频脚本 | 限制更严格,敏感数据慎用 |
| Tier 1 | 设置并关联有效账单 | 小型应用、内部工具 | 需要预算提醒和用量监控 |
| Tier 2 | 付费满一定条件并经过时间门槛 | 稳定业务、批量处理 | 升级通常自动完成,但并非绝对保证 |
| Tier 3 | 更高累计消费和更长付费历史 | 企业级高并发 | 仍要看模型、地区和项目状态 |
避坑提醒:不要再把“Google Cloud 新账号 $300 赠金”简单等同于“Gemini API 可无限免费调用”。赠金、免费层级和当前项目可用额度不是同一个概念,具体以账单页和 AI Studio 显示为准。
四、Batch、Flex、Priority 会影响配额吗
会,但它们解决的问题不一样。Batch 更适合离线批处理,官方给了单独的 Batch 限制;Priority 有自己的 rate limits,同时也会计入整体交互式流量;Flex 更偏成本和可用性取舍,不适合强实时业务。
Batch
适合批量总结、离线抽取、批量改写。官方文档说明 Batch 请求有独立限制,例如并发 batch 请求、输入文件大小、文件存储等。
Flex
适合成本敏感、可接受等待的任务。不要把 Flex 当作实时客服或用户侧即时响应的默认方案。
Priority
适合更看重稳定和响应的生产场景,但默认 rate limits 会独立计算,也会计入整体交互式流量。
如果你正在比较不同调用层级的价格,可以配合 Gemini API Pricing 官方价格页 一起看,不要只看单次请求价格,也要看延迟、失败率和业务是否能排队。
五、如何查看自己的 Gemini API 剩余额度
最可靠的方法不是看别人整理的表格,而是打开 AI Studio 查看当前项目的 active rate limits 和用量页。因为同一个模型,在不同项目、不同账单状态、不同 tier 下的实际上限可能不一样。
进入 AI Studio 的 Usage 或 Rate limits 页面
优先看当前项目,而不是看账号下其他项目。
检查请求总数、错误总数和成功率
如果错误集中在某一天或某个模型,优先排查并发和上下文长度。
确认账单层级和项目状态
如果你已经绑定账单但仍然限额很低,可能需要等待 tier 更新或申请提高限制。
如果是国内网络导致调用不稳定,而不是单纯配额问题,可以继续看 国内如何使用 Gemini,先排除网络、地区和账号状态影响。
六、怎么避免额度过快耗尽
配额优化的核心不是“想办法绕过限制”,而是让每次调用更有价值。尤其是内容处理、批量总结、网页抓取、客服机器人这类任务,如果不做限流和缓存,很容易把免费层级打爆。
给调用加队列:不要让前端或脚本无限并发,先把任务排队,再按固定速率消费。
压缩上下文:去掉重复内容、导航文字、日志噪音,只把模型真正需要的信息传进去。
重试要退避:429 后不要立刻循环重试,使用指数退避,并设置最大重试次数。
缓存结果:相同输入、相同任务、相同摘要不要重复请求,先查本地缓存或数据库。
先估算 token:长文档和批量任务可以先用 Token 计算器 估算成本,再决定是否分批处理。
七、什么时候该升级付费或换方案
如果只是个人测试,免费层级已经够用;但如果你要接入网站、插件、自动化脚本、客服系统或团队内部工具,就不能只看“能不能免费”。你更应该看稳定性、错误率、响应延迟和账单可控性。
简单判断:偶尔 demo 用免费层级;低频内部工具用 Tier 1;批量离线任务看 Batch / Flex;用户侧实时请求再考虑更稳定的付费层级或可靠中转方案。
如果你还在评估 API Key 获取、账单和购买方案,可以回到 Gemini API Key 获取与购买全攻略,先把账号和付费路径确认清楚。
八、常见问题解答
Gemini API 的 RPM、TPM、RPD 是一起算的吗?
它们是不同维度,但会同时评估。只要其中任意一个超过限制,就可能触发 rate limit error。
多创建几个 API Key 能提高额度吗?
不能。官方文档说明配额按项目计算,不是按单个 API Key 计算。多个 Key 仍然共享同一个项目的限制。
429 报错是不是账号被封?
通常不是。429 更常见的原因是请求太频繁、token 太多或日额度用完。先看用量页和 rate limits 页面,再判断账号状态。
免费层级可以用于生产环境吗?
不建议。免费层级限制更严格,稳定性和数据使用规则也不适合直接承载客户侧生产业务。
配额提升是自动的吗?
从免费到付费层级通常依赖账单配置和项目状态;更高层级会看累计消费和时间门槛。官方也说明,极少数情况下升级请求可能被拒。
九、核心要点总结
Gemini API 配额不是单一额度,而是 RPM、TPM、RPD、模型类型和项目 tier 共同决定。出现 429 时,先查用量页和 rate limits,不要马上判断 API Key 失效。
对开发者来说,最重要的是控制并发、压缩上下文、设置退避重试、缓存重复结果,并根据业务场景选择免费层级、付费 Tier、Batch、Flex 或 Priority。具体数字始终以官方文档和当前 AI Studio 项目页面为准。
关于作者:陈知远
独立 AI 工具研究者,深度体验 Google Gemini 系列产品超过 2 年。专注于 AI 工具使用技巧、订阅攻略和效率提升方法的研究与分享,所有内容均基于亲身测试与真实使用体验。