快速结论
- 适合高复杂度问答、方案推演、代码分析与多步骤任务拆解。
- 使用 OpenAI 兼容格式:POST /v1/chat/completions,可直接复用现有 OpenAI SDK 工作流。
- 支持 stream=true 的 SSE 流式返回,适合 IDE、终端助手与实时交互场景。
关键参数
- model | string | 必填 | gpt-5-4 | - | 模型名称,使用当前页面模型 ID(例如 gpt-5-4)。
- messages | object[] | 必填 | - | - | 对话消息列表,按时间顺序排列;角色支持 system、user、assistant。
- max_tokens | integer | 可选 | - | >=1 | 生成内容的最大 token 数量(不设置时使用模型默认上限)。
- stream | boolean | 可选 | false | - | 是否启用流式输出(SSE)。
- temperature | number | 可选 | 1 | 0-2 | 采样温度,控制输出随机性。
- top_p | number | 可选 | 1 | 0-1 | 核采样概率阈值,建议不要同时大幅调整 temperature 与 top_p。
- stop | string | string[] | 可选 | - | - | 停止序列,最多支持 4 个。
- Authorization | HTTP Header | 必填 | - | - | Bearer Token 认证:Authorization: Bearer <YOUR_API_KEY>。
常见错误
- 400 invalid_request_error: 触发=请求体缺少必填字段或字段类型不匹配。; 修复=校验 model、messages 与参数类型。; 重试=修正请求后重试。
- 401 authentication_error: 触发=鉴权头缺失、格式错误或密钥失效。; 修复=确认 Authorization 头和密钥有效性。; 重试=修复鉴权后重试。
- 429 rate_limit_error: 触发=请求频率、并发或当前额度命中上游限流策略。; 修复=先做指数退避重试,并检查当前请求节奏、并发设置和额度使用情况。; 重试=建议 1s/2s/4s + 抖动;连续触发时再收紧提交节奏。

