Skip to content

主流模型厂商与 API

你在项目里用哪家的模型,最终会影响响应速度、成本结构、输出稳定性,以及你能不能用到某些特定能力(比如函数调用、视觉理解、长上下文)。这篇的重点不是帮你背各家的参数表,而是说清楚接入时真正要判断的几件事。

模型迭代很快,这里列出的是当前(2026 年 4 月)各厂商的主流可用版本,具体版本号和定价以官方文档为准。

各家厂商当前在哪

OpenAI

OpenAI 在 2026 年初完成了产品线整合,主线全面切换到 GPT-5 系列。当前 API 文档上的推荐起点是 gpt-5.5(旗舰),高频低延迟场景用 gpt-5.4-minigpt-5.4-nano

旧模型现状:GPT-4o、GPT-4.1、o4-mini 已于 2026 年 2 月从 ChatGPT 退役,但 API 仍可访问(官方未宣布 API 下线时间,新项目不建议依赖)。o3 系列目前标注为"succeeded by GPT-5"。

GPT-5 系列的统一特性:支持文本和图像输入、函数调用、Web Search、File Search,支持通过 reasoning_effort 参数调节推理深度(none / low / medium / high / xhigh),1M token 上下文窗口。

开发者参考:platform.openai.com/docs/models

Anthropic / Claude

Claude 目前主线是 Claude 4.x 系列,截至 2026 年 4 月最新为 Claude Opus 4.7(2026-04-16 发布)。

当前推荐模型(来自 Anthropic 官方文档):

模型API ID定位输入价格输出价格上下文
Claude Opus 4.7claude-opus-4-7最强综合能力,Agent 编码首选$5 / MTok$25 / MTok1M
Claude Sonnet 4.6claude-sonnet-4-6速度与能力均衡,日常使用推荐$3 / MTok$15 / MTok1M
Claude Haiku 4.5claude-haiku-4-5最快,近前沿水平,成本低$1 / MTok$5 / MTok200K

Claude 4 系列是混合推理模型,支持 Extended Thinking(显式推理过程输出)和 Adaptive Thinking 模式,在复杂代码任务和 Agent 工作流上有明显优势。Sonnet 4(claude-sonnet-4-20250514)已被标记为 deprecated,计划 2026 年 6 月下线,推荐迁移到 Sonnet 4.6。

API 访问在国内需要代理或通过 Amazon Bedrock / Google Vertex AI 接入。

Google / Gemini

Google Gemini 当前主线已到 Gemini 3.x。截至 2026 年 4 月,活跃的主要版本:

  • Gemini 3.1 Pro:最强推理,适合复杂多步任务
  • Gemini 3 Flash:速度和质量均衡,基准分数超越 Gemini 2.5 Pro,高性价比首选
  • Gemini 2.5 Pro:GA 稳定版,文档完善,生产环境验证充分,不追新的团队可继续用
  • Gemini 2.5 Flash / Flash-Lite:轻量版本,成本最低,适合高频调用

Gemini 系列的核心优势是上下文窗口(支持至 1M token)和原生多模态能力(文本、图像、音视频)。通过 Google AI Studio 可以免费测试,生产部署走 Vertex AI 或 Gemini API。

DeepSeek

DeepSeek 于 2026 年 4 月 24 日正式推出 V4 系列,当前 API 上的两个模型:

  • deepseek-v4-pro:旗舰,支持 thinking 和 non-thinking 两种模式,1M 上下文
  • deepseek-v4-flash:轻量快速版,支持思维切换,旧的 deepseek-chatdeepseek-reasoner 别名将于 2026 年 7 月下线

DeepSeek 的 API 接口同时兼容 OpenAI 格式和 Anthropic 格式,切换几乎零成本。价格极低:V4-Flash 输入 $0.14 / MTok、输出 $0.28 / MTok(cache miss,详见官方定价页)。

开发者参考:api-docs.deepseek.com

阿里云 / Qwen(通义千问)

Qwen 系列当前主线是 Qwen 3.x/3.5/3.6,更新频繁:

  • qwen3-max:最强通用能力,252K 上下文,价格比 GPT-5 系列低很多
  • qwen3.5-plus:综合最优,1M 上下文,中英文效果好,支持 Agent 工作流
  • qwen3.5-flash:轻量高效,1M 上下文,$0.10 / MTok 输入价格
  • qwen3.6-plus(2026-04 新发布):在 Agentic Coding 和 Vibe Coding 方向重点升级

Qwen 系列大量版本以 Apache 2.0 协议开源,可本地部署(Ollama 支持)。API 接入走阿里云百炼平台,接口格式兼容 OpenAI,国内访问无需代理。适合数据合规要求严格或成本压力大的项目。

开发者参考:help.aliyun.com/zh/model-studio

接入时真正需要关心的维度

选模型不是只看"哪个模型更强",而是要对应你的实际约束。

延迟:对话类产品通常需要首 token 延迟在 1 秒以内,Flash / Haiku / mini 这类轻量模型更适合。推理模型(高 reasoning_effort 或 extended thinking)单次调用可能需要十几秒到几十秒,不适合直接面向用户的对话场景——哪怕它更"聪明"。

上下文长度:如果要处理整个代码仓库、长合同或大型 PDF,普通 8K/16K 窗口会成为瓶颈。主流旗舰模型当前普遍支持 200K-1M token,长上下文不再是稀缺能力,但要注意超长输入的成本会同步放大。

Tool Calling 稳定性:Agent 类应用高度依赖模型能不能准确输出函数调用格式。GPT-5 系列、Claude 4.x、Gemini 3.x 在这方面都比较成熟;如果模型经常输出格式错乱的 JSON,工程排查成本会明显增加,不是调调 Prompt 就能解决的。

成本:输入 token 和输出 token 单价通常相差 4-10 倍(输出更贵)。高频场景下,旗舰模型和轻量模型的成本差距可能超过 10 倍。不要等账单出来再考虑这件事——早期原型验证用旗舰,压力测试和生产稳定后再考虑轻量替代。

API 兼容性:OpenAI 接口格式已经是事实标准。DeepSeek、Qwen、以及大多数开源模型的本地推理服务(Ollama)都支持 OpenAI-compatible API,意味着你可以用同一套代码切换底层模型,只改 base_urlmodel 参数。

接入代码:以 OpenAI 格式为例

这套格式适用于 OpenAI、DeepSeek、Qwen、以及 Ollama 本地模型:

python
from openai import OpenAI

# OpenAI
client = OpenAI(api_key="sk-...")

# 切换到 DeepSeek:只改这两个参数
client = OpenAI(
    api_key="sk-...",
    base_url="https://api.deepseek.com"
)

# 切换到 Qwen(阿里云百炼)
client = OpenAI(
    api_key="sk-...",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)

# 切换到本地 Ollama(不需要 API Key)
client = OpenAI(
    api_key="ollama",
    base_url="http://localhost:11434/v1"
)

response = client.chat.completions.create(
    model="gpt-5.5",          # 换厂商时改这里
    messages=[
        {"role": "system", "content": "你是一个代码助手。"},
        {"role": "user", "content": "帮我写一个 Python 函数,计算两个日期之间的工作日数量。"}
    ]
)

print(response.choices[0].message.content)

Anthropic 有自己独立的 SDK,不走 OpenAI 格式,但 DeepSeek V4 现在同时支持两种格式,接入灵活性更高。

选型判断框架

实际选模型时,可以按这个顺序想:

第一步:确认延迟要求

  • 直接面向用户的对话 → 轻量模型(Flash / mini / Haiku)
  • 后台异步任务、复杂推理 → 旗舰模型或推理模型

第二步:确认数据约束

  • 数据不能出境 → Qwen(国内)或本地部署开源模型
  • 无数据合规限制 → 任意主流厂商均可

第三步:估算成本量级

  • 日调用量 < 1 万次 → 模型成本通常不是瓶颈,用旗舰就好
  • 日调用量 > 10 万次 → 成本要认真计算,轻量模型或国产模型的性价比优势开始显现

第四步:评估生态支持

  • 需要 LangChain / LlamaIndex 等框架开箱即用 → OpenAI 接口格式是最安全的选择
  • 需要多模态(图像 / 音频 / 视频输入)→ Gemini 或 Claude Opus 4.7

什么时候先用通用模型,什么时候再考虑别的

大多数项目,一开始用 GPT-5.4-mini 或 Claude Sonnet 4.6 就够了。不要在还没验证产品方向之前就去折腾本地部署或微调——前期的主要问题通常不是模型能力不足,而是 Prompt 设计不对、上下文处理不好、任务拆解不清楚。

以下情况可以考虑换模型:

  • 成本已经成为瓶颈:先试轻量模型(Gemini Flash、Qwen Flash、DeepSeek V4-Flash),评估输出质量是否满足需求
  • 数据合规要求不允许数据出境:Qwen(API 或本地部署开源版)、本地 Ollama
  • 需要极长上下文(> 200K token):GPT-5.5、Claude Opus 4.7(1M)、Gemini 系列(1M)
  • Agent / 编码任务效果不理想:Claude Opus 4.7 在 Agent 编码方向目前有明显优势

下一步:了解 AI 能做什么(帮你判断哪类任务适合先用 AI 做),或者直接进入 AI 应用开发路线

面向开发者系统学习 AI 应用开发、RAG、Agent 与 Vibe Coding。