快速结论
- 官方能力包括 1M 上下文窗口、最高 64K 输出,以及函数调用、结构化输出、搜索工具和代码执行支持。
- 相比传统轻量 Flash,更适合复杂问答、代码生成、长文档处理和 Agent 工作流。
- 推荐仍然用 OpenAI 兼容聊天接口接入,便于复用现有 SDK、SSE 流式输出和服务端重试逻辑。
常见错误
- 400 invalid_request_error: 触发=请求体缺少必填字段、messages 结构错误或参数类型不匹配。; 修复=先校验 model、messages、max_tokens 以及 tools/schema 的 JSON 结构。; 重试=修正请求体后重试,不建议盲重试。
- 401 authentication_error: 触发=Authorization 头缺失、格式错误或 API Key 无效。; 修复=确认 Authorization: Bearer <YOUR_API_KEY> 格式和密钥权限。; 重试=修复鉴权后重试。
- 429 rate_limit_error: 触发=请求频率、并发或当前额度命中上游限流策略。; 修复=采用指数退避,并检查批量并发、上下文长度和当前配额消耗。; 重试=建议 1s/2s/4s + 抖动;持续触发时收紧并发或降级任务。
- 500 internal_error: 触发=上游瞬时波动、工具执行异常或内部处理失败。; 修复=记录 request id 和上下文摘要后重试,持续失败再人工排查。; 重试=可短间隔重试 2-3 次。