模型解析页

gemini-3.5-flash

gemini-3.5-flash 是 Google 于 2026 年 5 月 19 日发布的新一代 Flash 文本模型，强调“高智能能力 + Flash 级延迟”。它适合高频对话、代码助手、长上下文问答、结构化输出和工具调用场景，并且可以通过 ToAPIs 走 OpenAI 兼容链路快速接入。

厂商

Google (Gemini)

能力

Image

价格

Input 90 credits/1M, Output 540 credits/1M

更新

2026-05-21

在 Playground 中打开文档

模型概览

快速结论

官方能力包括 1M 上下文窗口、最高 64K 输出，以及函数调用、结构化输出、搜索工具和代码执行支持。
相比传统轻量 Flash，更适合复杂问答、代码生成、长文档处理和 Agent 工作流。
推荐仍然用 OpenAI 兼容聊天接口接入，便于复用现有 SDK、SSE 流式输出和服务端重试逻辑。

gemini-3.5-flash模型特点

核心能力

能力一览与工程实践价值

高智能但仍保持低延迟

不是单纯的低成本补位模型，而是在 Flash 速度下承接更复杂的理解、规划和生成任务。

1M 超长上下文

适合长文档摘要、代码库分析、知识整合、大提示词工作流和多轮长会话。

结构化与工具化输出

支持函数调用、结构化 JSON、搜索工具和代码执行，更适合 Agent 与自动化工作流。

代码与技术内容能力

适合代码解释、单测生成、重构建议、接口封装和技术文档初稿。

OpenAI 兼容迁移

可复用 Chat Completions 风格请求体，降低从 GPT/Claude 兼容链路切换的成本。

实时流式交互

支持 SSE 流式返回，适合聊天界面、终端助手和 IDE Copilot 类体验。

如何使用 gemini-3.5-flash API

创建 API Key，并在请求头设置 Authorization: Bearer <YOUR_API_KEY>。
向 /v1/chat/completions 发送 POST，请求体至少包含 model 和 messages。
根据任务复杂度设置 max_tokens，并按稳定性需求调整 temperature、top_p。
如需实时输出，开启 stream=true；如需工具能力，补充 tools 和 tool_choice。
根据 finish_reason、usage 和应用日志收敛提示词与输出结构，再推广到生产流量。

常见错误

400 invalid_request_error

触发条件: 请求体缺少必填字段、messages 结构错误或参数类型不匹配。

修复建议: 先校验 model、messages、max_tokens 以及 tools/schema 的 JSON 结构。

重试策略: 修正请求体后重试，不建议盲重试。

401 authentication_error

触发条件: Authorization 头缺失、格式错误或 API Key 无效。

修复建议: 确认 Authorization: Bearer <YOUR_API_KEY> 格式和密钥权限。

重试策略: 修复鉴权后重试。

429 rate_limit_error

触发条件: 请求频率、并发或当前额度命中上游限流策略。

修复建议: 采用指数退避，并检查批量并发、上下文长度和当前配额消耗。

重试策略: 建议 1s/2s/4s + 抖动；持续触发时收紧并发或降级任务。

500 internal_error

触发条件: 上游瞬时波动、工具执行异常或内部处理失败。

修复建议: 记录 request id 和上下文摘要后重试，持续失败再人工排查。

重试策略: 可短间隔重试 2-3 次。

FAQ

gemini-3.5-flash 最适合哪些任务？

它最适合需要较强理解和生成能力、但又强调吞吐和响应速度的文本与代码助手任务。

它和传统 Flash 模型有什么区别？

核心区别是智能上限更高，不再只是轻量快速回复，更适合复杂问答、长上下文和工具化任务。

怎么最快接入到现有系统？

优先走 OpenAI 兼容的 Chat Completions 链路，复用现有 messages、streaming 和服务端重试逻辑。

什么时候应该严格控制 max_tokens？

长上下文、代码生成和结构化输出场景尤其要控制 max_tokens，避免响应过长、成本失控或超时。