gemini-3.5-flash API 模型解析指南

快速结论

官方能力包括 1M 上下文窗口、最高 64K 输出，以及函数调用、结构化输出、搜索工具和代码执行支持。
相比传统轻量 Flash，更适合复杂问答、代码生成、长文档处理和 Agent 工作流。
推荐仍然用 OpenAI 兼容聊天接口接入，便于复用现有 SDK、SSE 流式输出和服务端重试逻辑。

核心能力

高智能但仍保持低延迟：不是单纯的低成本补位模型，而是在 Flash 速度下承接更复杂的理解、规划和生成任务。
1M 超长上下文：适合长文档摘要、代码库分析、知识整合、大提示词工作流和多轮长会话。
结构化与工具化输出：支持函数调用、结构化 JSON、搜索工具和代码执行，更适合 Agent 与自动化工作流。
代码与技术内容能力：适合代码解释、单测生成、重构建议、接口封装和技术文档初稿。
OpenAI 兼容迁移：可复用 Chat Completions 风格请求体，降低从 GPT/Claude 兼容链路切换的成本。
实时流式交互：支持 SSE 流式返回，适合聊天界面、终端助手和 IDE Copilot 类体验。

适用场景

需要比传统轻量模型更强的理解、推理和代码能力，但又不想牺牲太多响应速度时。
需要长上下文处理，例如大文档问答、代码库分析、长会话记忆或检索增强问答。
需要结构化 JSON、函数调用或搜索工具接入来构建 Agent 时。

不适用场景

只做极短、极简单、极端成本敏感的批量模板任务时，可能没有必要上这一级别模型。
纯图像或视频生成任务应使用对应的图像/视频专用模型。

运行特性

推荐通过 POST /v1/chat/completions 走 OpenAI 兼容请求结构，便于与现有中间层对接。
stream=true 时返回 SSE 事件流；stream=false 时返回标准完整响应对象。
若业务依赖结构化输出或工具调用，建议先用小流量验证 schema、tool choice 和异常回退逻辑。

最小请求示例

{
  "model": "gemini-3.5-flash",
  "messages": [
    {
      "role": "system",
      "content": "你是资深全栈工程师，先总结方案，再给最小可运行代码。"
    },
    {
      "role": "user",
      "content": "帮我写一个 Node.js 函数：读取 CSV，过滤重复邮箱，并输出统计结果。"
    }
  ],
  "temperature": 0.2,
  "max_tokens": 500,
  "stream": false
}

最小响应示例

{
  "id": "chatcmpl_xxxxxxxx",
  "object": "chat.completion",
  "created": 1747699200,
  "model": "gemini-3.5-flash",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "..."
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 120,
    "completion_tokens": 260,
    "total_tokens": 380
  }
}

关键参数

参数	类型	必填	默认值	范围	说明
model	string	是	gemini-3.5-flash	-	模型名称，建议使用 `gemini-3.5-flash`。
messages	object[]	是	-	-	按时间顺序排列的对话消息；常见角色包括 system、user、assistant。
max_tokens	integer	否	-	>=1, practical cap should be set by your app	最大输出 token 数；官方能力可到 64K 输出，但实际应按场景和成本做业务约束。
stream	boolean	否	false	-	是否启用 SSE 流式输出。
temperature	number	否	1	0-2	采样温度，越低越稳定，越高越发散。
top_p	number	否	1	0-1	核采样阈值，建议不要和 temperature 同时大幅调节。
tools	object[]	否	-	-	函数或工具定义，用于工具调用和 Agent 编排。
Authorization	HTTP Header	是	-	-	Bearer 鉴权：Authorization: Bearer <YOUR_API_KEY>。

常见错误

HTTP	Code	触发条件	修复建议	重试策略
400	invalid_request_error	请求体缺少必填字段、messages 结构错误或参数类型不匹配。	先校验 model、messages、max_tokens 以及 tools/schema 的 JSON 结构。	修正请求体后重试，不建议盲重试。
401	authentication_error	Authorization 头缺失、格式错误或 API Key 无效。	确认 Authorization: Bearer <YOUR_API_KEY> 格式和密钥权限。	修复鉴权后重试。
429	rate_limit_error	请求频率、并发或当前额度命中上游限流策略。	采用指数退避，并检查批量并发、上下文长度和当前配额消耗。	建议 1s/2s/4s + 抖动；持续触发时收紧并发或降级任务。
500	internal_error	上游瞬时波动、工具执行异常或内部处理失败。	记录 request id 和上下文摘要后重试，持续失败再人工排查。	可短间隔重试 2-3 次。

FAQ

gemini-3.5-flash 最适合哪些任务？
它最适合需要较强理解和生成能力、但又强调吞吐和响应速度的文本与代码助手任务。
它和传统 Flash 模型有什么区别？
核心区别是智能上限更高，不再只是轻量快速回复，更适合复杂问答、长上下文和工具化任务。
怎么最快接入到现有系统？
优先走 OpenAI 兼容的 Chat Completions 链路，复用现有 messages、streaming 和服务端重试逻辑。
什么时候应该严格控制 max_tokens？
长上下文、代码生成和结构化输出场景尤其要控制 max_tokens，避免响应过长、成本失控或超时。

gemini-3.5-flash 完整解析（Markdown）

gemini-3.5-flash API 模型解析指南

快速结论

核心能力

适用场景

不适用场景

运行特性

最小请求示例

最小响应示例

关键参数

常见错误

FAQ

相关 API