gemini-3.5-flash API 模型解析指南
快速结论
- 官方能力包括 1M 上下文窗口、最高 64K 输出,以及函数调用、结构化输出、搜索工具和代码执行支持。
- 相比传统轻量 Flash,更适合复杂问答、代码生成、长文档处理和 Agent 工作流。
- 推荐仍然用 OpenAI 兼容聊天接口接入,便于复用现有 SDK、SSE 流式输出和服务端重试逻辑。
核心能力
- 高智能但仍保持低延迟:不是单纯的低成本补位模型,而是在 Flash 速度下承接更复杂的理解、规划和生成任务。
- 1M 超长上下文:适合长文档摘要、代码库分析、知识整合、大提示词工作流和多轮长会话。
- 结构化与工具化输出:支持函数调用、结构化 JSON、搜索工具和代码执行,更适合 Agent 与自动化工作流。
- 代码与技术内容能力:适合代码解释、单测生成、重构建议、接口封装和技术文档初稿。
- OpenAI 兼容迁移:可复用 Chat Completions 风格请求体,降低从 GPT/Claude 兼容链路切换的成本。
- 实时流式交互:支持 SSE 流式返回,适合聊天界面、终端助手和 IDE Copilot 类体验。
适用场景
- 需要比传统轻量模型更强的理解、推理和代码能力,但又不想牺牲太多响应速度时。
- 需要长上下文处理,例如大文档问答、代码库分析、长会话记忆或检索增强问答。
- 需要结构化 JSON、函数调用或搜索工具接入来构建 Agent 时。
不适用场景
- 只做极短、极简单、极端成本敏感的批量模板任务时,可能没有必要上这一级别模型。
- 纯图像或视频生成任务应使用对应的图像/视频专用模型。
运行特性
- 推荐通过 POST /v1/chat/completions 走 OpenAI 兼容请求结构,便于与现有中间层对接。
- stream=true 时返回 SSE 事件流;stream=false 时返回标准完整响应对象。
- 若业务依赖结构化输出或工具调用,建议先用小流量验证 schema、tool choice 和异常回退逻辑。
最小请求示例
{
"model": "gemini-3.5-flash",
"messages": [
{
"role": "system",
"content": "你是资深全栈工程师,先总结方案,再给最小可运行代码。"
},
{
"role": "user",
"content": "帮我写一个 Node.js 函数:读取 CSV,过滤重复邮箱,并输出统计结果。"
}
],
"temperature": 0.2,
"max_tokens": 500,
"stream": false
}
最小响应示例
{
"id": "chatcmpl_xxxxxxxx",
"object": "chat.completion",
"created": 1747699200,
"model": "gemini-3.5-flash",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "..."
},
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 120,
"completion_tokens": 260,
"total_tokens": 380
}
}
关键参数
| 参数 | 类型 | 必填 | 默认值 | 范围 | 说明 |
|---|
| model | string | 是 | gemini-3.5-flash | - | 模型名称,建议使用 gemini-3.5-flash。 |
| messages | object[] | 是 | - | - | 按时间顺序排列的对话消息;常见角色包括 system、user、assistant。 |
| max_tokens | integer | 否 | - | >=1, practical cap should be set by your app | 最大输出 token 数;官方能力可到 64K 输出,但实际应按场景和成本做业务约束。 |
| stream | boolean | 否 | false | - | 是否启用 SSE 流式输出。 |
| temperature | number | 否 | 1 | 0-2 | 采样温度,越低越稳定,越高越发散。 |
| top_p | number | 否 | 1 | 0-1 | 核采样阈值,建议不要和 temperature 同时大幅调节。 |
| tools | object[] | 否 | - | - | 函数或工具定义,用于工具调用和 Agent 编排。 |
| Authorization | HTTP Header | 是 | - | - | Bearer 鉴权:Authorization: Bearer <YOUR_API_KEY>。 |
常见错误
| HTTP | Code | 触发条件 | 修复建议 | 重试策略 |
|---|
| 400 | invalid_request_error | 请求体缺少必填字段、messages 结构错误或参数类型不匹配。 | 先校验 model、messages、max_tokens 以及 tools/schema 的 JSON 结构。 | 修正请求体后重试,不建议盲重试。 |
| 401 | authentication_error | Authorization 头缺失、格式错误或 API Key 无效。 | 确认 Authorization: Bearer <YOUR_API_KEY> 格式和密钥权限。 | 修复鉴权后重试。 |
| 429 | rate_limit_error | 请求频率、并发或当前额度命中上游限流策略。 | 采用指数退避,并检查批量并发、上下文长度和当前配额消耗。 | 建议 1s/2s/4s + 抖动;持续触发时收紧并发或降级任务。 |
| 500 | internal_error | 上游瞬时波动、工具执行异常或内部处理失败。 | 记录 request id 和上下文摘要后重试,持续失败再人工排查。 | 可短间隔重试 2-3 次。 |
FAQ
- gemini-3.5-flash 最适合哪些任务?
它最适合需要较强理解和生成能力、但又强调吞吐和响应速度的文本与代码助手任务。
- 它和传统 Flash 模型有什么区别?
核心区别是智能上限更高,不再只是轻量快速回复,更适合复杂问答、长上下文和工具化任务。
- 怎么最快接入到现有系统?
优先走 OpenAI 兼容的 Chat Completions 链路,复用现有 messages、streaming 和服务端重试逻辑。
- 什么时候应该严格控制 max_tokens?
长上下文、代码生成和结构化输出场景尤其要控制 max_tokens,避免响应过长、成本失控或超时。
相关 API