Appearance
主流模型厂商与 API
你在项目里用哪家的模型,最终会影响响应速度、成本结构、输出稳定性,以及你能不能用到某些特定能力(比如函数调用、视觉理解、长上下文)。这篇的重点不是帮你背各家的参数表,而是说清楚接入时真正要判断的几件事。
模型迭代很快,这里列出的是当前(2026 年 4 月)各厂商的主流可用版本,具体版本号和定价以官方文档为准。
各家厂商当前在哪
OpenAI
OpenAI 在 2026 年初完成了产品线整合,主线全面切换到 GPT-5 系列。当前 API 文档上的推荐起点是 gpt-5.5(旗舰),高频低延迟场景用 gpt-5.4-mini 或 gpt-5.4-nano。
旧模型现状:GPT-4o、GPT-4.1、o4-mini 已于 2026 年 2 月从 ChatGPT 退役,但 API 仍可访问(官方未宣布 API 下线时间,新项目不建议依赖)。o3 系列目前标注为"succeeded by GPT-5"。
GPT-5 系列的统一特性:支持文本和图像输入、函数调用、Web Search、File Search,支持通过 reasoning_effort 参数调节推理深度(none / low / medium / high / xhigh),1M token 上下文窗口。
开发者参考:platform.openai.com/docs/models
Anthropic / Claude
Claude 目前主线是 Claude 4.x 系列,截至 2026 年 4 月最新为 Claude Opus 4.7(2026-04-16 发布)。
当前推荐模型(来自 Anthropic 官方文档):
| 模型 | API ID | 定位 | 输入价格 | 输出价格 | 上下文 |
|---|---|---|---|---|---|
| Claude Opus 4.7 | claude-opus-4-7 | 最强综合能力,Agent 编码首选 | $5 / MTok | $25 / MTok | 1M |
| Claude Sonnet 4.6 | claude-sonnet-4-6 | 速度与能力均衡,日常使用推荐 | $3 / MTok | $15 / MTok | 1M |
| Claude Haiku 4.5 | claude-haiku-4-5 | 最快,近前沿水平,成本低 | $1 / MTok | $5 / MTok | 200K |
Claude 4 系列是混合推理模型,支持 Extended Thinking(显式推理过程输出)和 Adaptive Thinking 模式,在复杂代码任务和 Agent 工作流上有明显优势。Sonnet 4(claude-sonnet-4-20250514)已被标记为 deprecated,计划 2026 年 6 月下线,推荐迁移到 Sonnet 4.6。
API 访问在国内需要代理或通过 Amazon Bedrock / Google Vertex AI 接入。
Google / Gemini
Google Gemini 当前主线已到 Gemini 3.x。截至 2026 年 4 月,活跃的主要版本:
- Gemini 3.1 Pro:最强推理,适合复杂多步任务
- Gemini 3 Flash:速度和质量均衡,基准分数超越 Gemini 2.5 Pro,高性价比首选
- Gemini 2.5 Pro:GA 稳定版,文档完善,生产环境验证充分,不追新的团队可继续用
- Gemini 2.5 Flash / Flash-Lite:轻量版本,成本最低,适合高频调用
Gemini 系列的核心优势是上下文窗口(支持至 1M token)和原生多模态能力(文本、图像、音视频)。通过 Google AI Studio 可以免费测试,生产部署走 Vertex AI 或 Gemini API。
DeepSeek
DeepSeek 于 2026 年 4 月 24 日正式推出 V4 系列,当前 API 上的两个模型:
deepseek-v4-pro:旗舰,支持 thinking 和 non-thinking 两种模式,1M 上下文deepseek-v4-flash:轻量快速版,支持思维切换,旧的deepseek-chat和deepseek-reasoner别名将于 2026 年 7 月下线
DeepSeek 的 API 接口同时兼容 OpenAI 格式和 Anthropic 格式,切换几乎零成本。价格极低:V4-Flash 输入 $0.14 / MTok、输出 $0.28 / MTok(cache miss,详见官方定价页)。
开发者参考:api-docs.deepseek.com
阿里云 / Qwen(通义千问)
Qwen 系列当前主线是 Qwen 3.x/3.5/3.6,更新频繁:
qwen3-max:最强通用能力,252K 上下文,价格比 GPT-5 系列低很多qwen3.5-plus:综合最优,1M 上下文,中英文效果好,支持 Agent 工作流qwen3.5-flash:轻量高效,1M 上下文,$0.10 / MTok 输入价格qwen3.6-plus(2026-04 新发布):在 Agentic Coding 和 Vibe Coding 方向重点升级
Qwen 系列大量版本以 Apache 2.0 协议开源,可本地部署(Ollama 支持)。API 接入走阿里云百炼平台,接口格式兼容 OpenAI,国内访问无需代理。适合数据合规要求严格或成本压力大的项目。
开发者参考:help.aliyun.com/zh/model-studio
接入时真正需要关心的维度
选模型不是只看"哪个模型更强",而是要对应你的实际约束。
延迟:对话类产品通常需要首 token 延迟在 1 秒以内,Flash / Haiku / mini 这类轻量模型更适合。推理模型(高 reasoning_effort 或 extended thinking)单次调用可能需要十几秒到几十秒,不适合直接面向用户的对话场景——哪怕它更"聪明"。
上下文长度:如果要处理整个代码仓库、长合同或大型 PDF,普通 8K/16K 窗口会成为瓶颈。主流旗舰模型当前普遍支持 200K-1M token,长上下文不再是稀缺能力,但要注意超长输入的成本会同步放大。
Tool Calling 稳定性:Agent 类应用高度依赖模型能不能准确输出函数调用格式。GPT-5 系列、Claude 4.x、Gemini 3.x 在这方面都比较成熟;如果模型经常输出格式错乱的 JSON,工程排查成本会明显增加,不是调调 Prompt 就能解决的。
成本:输入 token 和输出 token 单价通常相差 4-10 倍(输出更贵)。高频场景下,旗舰模型和轻量模型的成本差距可能超过 10 倍。不要等账单出来再考虑这件事——早期原型验证用旗舰,压力测试和生产稳定后再考虑轻量替代。
API 兼容性:OpenAI 接口格式已经是事实标准。DeepSeek、Qwen、以及大多数开源模型的本地推理服务(Ollama)都支持 OpenAI-compatible API,意味着你可以用同一套代码切换底层模型,只改 base_url 和 model 参数。
接入代码:以 OpenAI 格式为例
这套格式适用于 OpenAI、DeepSeek、Qwen、以及 Ollama 本地模型:
python
from openai import OpenAI
# OpenAI
client = OpenAI(api_key="sk-...")
# 切换到 DeepSeek:只改这两个参数
client = OpenAI(
api_key="sk-...",
base_url="https://api.deepseek.com"
)
# 切换到 Qwen(阿里云百炼)
client = OpenAI(
api_key="sk-...",
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)
# 切换到本地 Ollama(不需要 API Key)
client = OpenAI(
api_key="ollama",
base_url="http://localhost:11434/v1"
)
response = client.chat.completions.create(
model="gpt-5.5", # 换厂商时改这里
messages=[
{"role": "system", "content": "你是一个代码助手。"},
{"role": "user", "content": "帮我写一个 Python 函数,计算两个日期之间的工作日数量。"}
]
)
print(response.choices[0].message.content)Anthropic 有自己独立的 SDK,不走 OpenAI 格式,但 DeepSeek V4 现在同时支持两种格式,接入灵活性更高。
选型判断框架
实际选模型时,可以按这个顺序想:
第一步:确认延迟要求
- 直接面向用户的对话 → 轻量模型(Flash / mini / Haiku)
- 后台异步任务、复杂推理 → 旗舰模型或推理模型
第二步:确认数据约束
- 数据不能出境 → Qwen(国内)或本地部署开源模型
- 无数据合规限制 → 任意主流厂商均可
第三步:估算成本量级
- 日调用量 < 1 万次 → 模型成本通常不是瓶颈,用旗舰就好
- 日调用量 > 10 万次 → 成本要认真计算,轻量模型或国产模型的性价比优势开始显现
第四步:评估生态支持
- 需要 LangChain / LlamaIndex 等框架开箱即用 → OpenAI 接口格式是最安全的选择
- 需要多模态(图像 / 音频 / 视频输入)→ Gemini 或 Claude Opus 4.7
什么时候先用通用模型,什么时候再考虑别的
大多数项目,一开始用 GPT-5.4-mini 或 Claude Sonnet 4.6 就够了。不要在还没验证产品方向之前就去折腾本地部署或微调——前期的主要问题通常不是模型能力不足,而是 Prompt 设计不对、上下文处理不好、任务拆解不清楚。
以下情况可以考虑换模型:
- 成本已经成为瓶颈:先试轻量模型(Gemini Flash、Qwen Flash、DeepSeek V4-Flash),评估输出质量是否满足需求
- 数据合规要求不允许数据出境:Qwen(API 或本地部署开源版)、本地 Ollama
- 需要极长上下文(> 200K token):GPT-5.5、Claude Opus 4.7(1M)、Gemini 系列(1M)
- Agent / 编码任务效果不理想:Claude Opus 4.7 在 Agent 编码方向目前有明显优势