主流模型厂商与 API

你在项目里用哪家的模型，最终会影响响应速度、成本结构、输出稳定性，以及你能不能用到某些特定能力（比如函数调用、视觉理解、长上下文）。这篇的重点不是帮你背各家的参数表，而是说清楚接入时真正要判断的几件事。

模型迭代很快，这里列出的是当前（2026 年 4 月）各厂商的主流可用版本，具体版本号和定价以官方文档为准。

各家厂商当前在哪

OpenAI

OpenAI 在 2026 年初完成了产品线整合，主线全面切换到 GPT-5 系列。当前 API 文档上的推荐起点是 gpt-5.5（旗舰），高频低延迟场景用 gpt-5.4-mini 或 gpt-5.4-nano。

旧模型现状：GPT-4o、GPT-4.1、o4-mini 已于 2026 年 2 月从 ChatGPT 退役，但 API 仍可访问（官方未宣布 API 下线时间，新项目不建议依赖）。o3 系列目前标注为"succeeded by GPT-5"。

GPT-5 系列的统一特性：支持文本和图像输入、函数调用、Web Search、File Search，支持通过 reasoning_effort 参数调节推理深度（none / low / medium / high / xhigh），1M token 上下文窗口。

开发者参考：platform.openai.com/docs/models

Anthropic / Claude

Claude 目前主线是 Claude 4.x 系列，截至 2026 年 4 月最新为 Claude Opus 4.7（2026-04-16 发布）。

当前推荐模型（来自 Anthropic 官方文档）：

模型	API ID	定位	输入价格	输出价格	上下文
Claude Opus 4.7	`claude-opus-4-7`	最强综合能力，Agent 编码首选	$5 / MTok	$25 / MTok	1M
Claude Sonnet 4.6	`claude-sonnet-4-6`	速度与能力均衡，日常使用推荐	$3 / MTok	$15 / MTok	1M
Claude Haiku 4.5	`claude-haiku-4-5`	最快，近前沿水平，成本低	$1 / MTok	$5 / MTok	200K

Claude 4 系列是混合推理模型，支持 Extended Thinking（显式推理过程输出）和 Adaptive Thinking 模式，在复杂代码任务和 Agent 工作流上有明显优势。Sonnet 4（claude-sonnet-4-20250514）已被标记为 deprecated，计划 2026 年 6 月下线，推荐迁移到 Sonnet 4.6。

API 访问在国内需要代理或通过 Amazon Bedrock / Google Vertex AI 接入。

Google / Gemini

Google Gemini 当前主线已到 Gemini 3.x。截至 2026 年 4 月，活跃的主要版本：

Gemini 3.1 Pro：最强推理，适合复杂多步任务
Gemini 3 Flash：速度和质量均衡，基准分数超越 Gemini 2.5 Pro，高性价比首选
Gemini 2.5 Pro：GA 稳定版，文档完善，生产环境验证充分，不追新的团队可继续用
Gemini 2.5 Flash / Flash-Lite：轻量版本，成本最低，适合高频调用

Gemini 系列的核心优势是上下文窗口（支持至 1M token）和原生多模态能力（文本、图像、音视频）。通过 Google AI Studio 可以免费测试，生产部署走 Vertex AI 或 Gemini API。

DeepSeek

DeepSeek 于 2026 年 4 月 24 日正式推出 V4 系列，当前 API 上的两个模型：

deepseek-v4-pro：旗舰，支持 thinking 和 non-thinking 两种模式，1M 上下文
deepseek-v4-flash：轻量快速版，支持思维切换，旧的 deepseek-chat 和 deepseek-reasoner 别名将于 2026 年 7 月下线

DeepSeek 的 API 接口同时兼容 OpenAI 格式和 Anthropic 格式，切换几乎零成本。价格极低：V4-Flash 输入 $0.14 / MTok、输出 $0.28 / MTok（cache miss，详见官方定价页）。

开发者参考：api-docs.deepseek.com

阿里云 / Qwen（通义千问）

Qwen 系列当前主线是 Qwen 3.x/3.5/3.6，更新频繁：

qwen3-max：最强通用能力，252K 上下文，价格比 GPT-5 系列低很多
qwen3.5-plus：综合最优，1M 上下文，中英文效果好，支持 Agent 工作流
qwen3.5-flash：轻量高效，1M 上下文，$0.10 / MTok 输入价格
qwen3.6-plus（2026-04 新发布）：在 Agentic Coding 和 Vibe Coding 方向重点升级

Qwen 系列大量版本以 Apache 2.0 协议开源，可本地部署（Ollama 支持）。API 接入走阿里云百炼平台，接口格式兼容 OpenAI，国内访问无需代理。适合数据合规要求严格或成本压力大的项目。

开发者参考：help.aliyun.com/zh/model-studio

接入时真正需要关心的维度

选模型不是只看"哪个模型更强"，而是要对应你的实际约束。

延迟：对话类产品通常需要首 token 延迟在 1 秒以内，Flash / Haiku / mini 这类轻量模型更适合。推理模型（高 reasoning_effort 或 extended thinking）单次调用可能需要十几秒到几十秒，不适合直接面向用户的对话场景——哪怕它更"聪明"。

上下文长度：如果要处理整个代码仓库、长合同或大型 PDF，普通 8K/16K 窗口会成为瓶颈。主流旗舰模型当前普遍支持 200K-1M token，长上下文不再是稀缺能力，但要注意超长输入的成本会同步放大。

Tool Calling 稳定性：Agent 类应用高度依赖模型能不能准确输出函数调用格式。GPT-5 系列、Claude 4.x、Gemini 3.x 在这方面都比较成熟；如果模型经常输出格式错乱的 JSON，工程排查成本会明显增加，不是调调 Prompt 就能解决的。

成本：输入 token 和输出 token 单价通常相差 4-10 倍（输出更贵）。高频场景下，旗舰模型和轻量模型的成本差距可能超过 10 倍。不要等账单出来再考虑这件事——早期原型验证用旗舰，压力测试和生产稳定后再考虑轻量替代。

API 兼容性：OpenAI 接口格式已经是事实标准。DeepSeek、Qwen、以及大多数开源模型的本地推理服务（Ollama）都支持 OpenAI-compatible API，意味着你可以用同一套代码切换底层模型，只改 base_url 和 model 参数。

接入代码：以 OpenAI 格式为例

这套格式适用于 OpenAI、DeepSeek、Qwen、以及 Ollama 本地模型：

python

from openai import OpenAI

# OpenAI
client = OpenAI(api_key="sk-...")

# 切换到 DeepSeek：只改这两个参数
client = OpenAI(
    api_key="sk-...",
    base_url="https://api.deepseek.com"
)

# 切换到 Qwen（阿里云百炼）
client = OpenAI(
    api_key="sk-...",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)

# 切换到本地 Ollama（不需要 API Key）
client = OpenAI(
    api_key="ollama",
    base_url="http://localhost:11434/v1"
)

response = client.chat.completions.create(
    model="gpt-5.5",          # 换厂商时改这里
    messages=[
        {"role": "system", "content": "你是一个代码助手。"},
        {"role": "user", "content": "帮我写一个 Python 函数，计算两个日期之间的工作日数量。"}
    ]
)

print(response.choices[0].message.content)

Anthropic 有自己独立的 SDK，不走 OpenAI 格式，但 DeepSeek V4 现在同时支持两种格式，接入灵活性更高。

选型判断框架

实际选模型时，可以按这个顺序想：

第一步：确认延迟要求

直接面向用户的对话 → 轻量模型（Flash / mini / Haiku）
后台异步任务、复杂推理 → 旗舰模型或推理模型

第二步：确认数据约束

数据不能出境 → Qwen（国内）或本地部署开源模型
无数据合规限制 → 任意主流厂商均可

第三步：估算成本量级

日调用量 < 1 万次 → 模型成本通常不是瓶颈，用旗舰就好
日调用量 > 10 万次 → 成本要认真计算，轻量模型或国产模型的性价比优势开始显现

第四步：评估生态支持

需要 LangChain / LlamaIndex 等框架开箱即用 → OpenAI 接口格式是最安全的选择
需要多模态（图像 / 音频 / 视频输入）→ Gemini 或 Claude Opus 4.7

什么时候先用通用模型，什么时候再考虑别的

大多数项目，一开始用 GPT-5.4-mini 或 Claude Sonnet 4.6 就够了。不要在还没验证产品方向之前就去折腾本地部署或微调——前期的主要问题通常不是模型能力不足，而是 Prompt 设计不对、上下文处理不好、任务拆解不清楚。

以下情况可以考虑换模型：

成本已经成为瓶颈：先试轻量模型（Gemini Flash、Qwen Flash、DeepSeek V4-Flash），评估输出质量是否满足需求
数据合规要求不允许数据出境：Qwen（API 或本地部署开源版）、本地 Ollama
需要极长上下文（> 200K token）：GPT-5.5、Claude Opus 4.7（1M）、Gemini 系列（1M）
Agent / 编码任务效果不理想：Claude Opus 4.7 在 Agent 编码方向目前有明显优势

下一步：了解 AI 能做什么（帮你判断哪类任务适合先用 AI 做），或者直接进入 AI 应用开发路线。

主流模型厂商与 API ​

各家厂商当前在哪 ​

OpenAI ​

Anthropic / Claude ​

Google / Gemini ​

DeepSeek ​

阿里云 / Qwen（通义千问） ​

接入时真正需要关心的维度 ​

接入代码：以 OpenAI 格式为例 ​

选型判断框架 ​

什么时候先用通用模型，什么时候再考虑别的 ​