Skip to content

大模型基础面试题

这一页收录的是 AI 应用开发里最常被追问的基础题。回答时不要只背概念,尽量落到工程含义:成本、上下文、可靠性、延迟、评测和安全。

模型基础

Token 是什么?为什么工程上要关心它?

考察角度: 是否知道 token 同时影响成本、延迟和上下文容量。

回答时应该覆盖:

  • 输入、输出、历史消息、工具结果都会计入 token。
  • token 数越多,成本和延迟通常越高。
  • RAG、Agent 和长对话都需要控制 token 预算。

深入了解: LLM 基础概念

Context Window 有什么工程含义?

考察角度: 是否理解“放得下”和“放得好”不是一回事。

回答时应该覆盖:

  • 上下文窗口包括系统提示词、用户输入、历史消息和工具结果。
  • 无关内容会稀释注意力,旧内容可能被截断。
  • 需要做上下文选择、压缩和外部状态管理。

深入了解: LLM 基础概念

Temperature 怎么调?

考察角度: 是否知道采样参数和任务类型的关系。

回答时应该覆盖:

  • 低温度更稳定,适合抽取、分类、结构化输出。
  • 高温度更发散,适合创意生成。
  • Temperature 不是能力升级,只是输出分布控制。

深入了解: LLM 基础概念

大模型的涌现能力是什么?

考察角度: 是否能谨慎解释模型规模和能力表现的关系。

回答时应该覆盖:

  • 某些能力在模型规模、数据和训练方式达到阈值后表现明显提升。
  • 常见例子包括复杂推理、代码生成、多步指令跟随。
  • 工程上不能只靠“涌现”兜底,仍要评测具体任务。

深入了解: LLM 基础概念

Prompt 与结构化输出

有哪些设计和优化 Prompt 的技巧?

考察角度: 是否能把 prompt 当成任务接口来设计。

回答时应该覆盖:

  • 明确角色、目标、输入、输出格式和边界条件。
  • 给少量高质量示例,比堆很多模糊规则更有效。
  • 用评测样本验证 prompt,而不是靠单次感觉。

深入了解: Prompt 工程

提示词模板通常有哪些字段?

考察角度: 是否知道可复用 prompt 需要结构化管理。

回答时应该覆盖:

  • 任务目标、背景上下文、输入变量、输出格式。
  • 约束条件、示例、失败处理和安全规则。
  • 模板版本和评测样本,方便迭代。

深入了解: Prompt 工程

什么是结构化输出?

考察角度: 是否理解结构化输出解决的是可解析性和稳定性。

回答时应该覆盖:

  • 让模型按 JSON、Schema 或固定字段返回。
  • 适合分类、抽取、表单填充和工具参数生成。
  • 需要校验、重试和错误处理。

深入了解: Structured Output

GPT Structured Outputs 和普通 JSON Prompt 有什么区别?

考察角度: 是否知道原生结构化能力比“请输出 JSON”更强。

回答时应该覆盖:

  • 普通 prompt 只是文本约束,可能输出非法 JSON。
  • 原生 Structured Outputs 会按 schema 限制生成空间。
  • 仍然需要业务层校验字段含义。

深入了解: Structured Output

可靠性与安全

幻觉的根本原因是什么?

考察角度: 是否能从生成机制解释不可靠性。

回答时应该覆盖:

  • 模型生成的是高概率文本,不直接验证事实。
  • 上下文不足、问题诱导、检索错误都会放大幻觉。
  • 需要 RAG、工具、引用、校验和评测共同约束。

深入了解: AI 幻觉

医疗问诊系统如何平衡 AI 幻觉风险与效率提升?

考察角度: 是否能把高风险场景里的边界讲清楚。

回答时应该覆盖:

  • AI 只能做辅助分诊、资料整理或建议,不应直接替代医生诊断。
  • 高风险结论需要引用来源、规则校验和人工确认。
  • 日志、免责声明、权限和应急兜底都要设计。

深入了解: AI 幻觉

什么是护栏技术?

考察角度: 是否知道 Guardrails 是输入输出和流程层的安全控制。

回答时应该覆盖:

  • 输入过滤、输出校验、敏感内容拦截和权限判断。
  • 高风险动作前暂停确认。
  • 护栏不能只靠一个安全 prompt。

深入了解: Prompt Injection 与 AI 安全

Prompt Injection 为什么危险?

考察角度: 是否理解外部内容可能影响模型行为。

回答时应该覆盖:

  • 用户输入、网页、文档都可能携带恶意指令。
  • Agent 读取外部资料后可能被诱导调用工具或泄露信息。
  • 要做指令隔离、工具权限限制和结果过滤。

深入了解: Prompt Injection 与 AI 安全

RAG、微调与选型

为什么 RAG 比微调更适合知识接入?

考察角度: 是否能区分推理时注入知识和改模型参数。

回答时应该覆盖:

  • RAG 适合最新资料、私有文档和可追溯引用。
  • 微调更适合输出风格、固定任务和行为偏好。
  • 知识频繁更新时微调成本高、验证慢。

深入了解: RAG 原理

什么是大模型微调?与预训练的核心区别是什么?

考察角度: 是否知道预训练、微调和推理的层级差异。

回答时应该覆盖:

  • 预训练学习通用语言和知识分布。
  • 微调让模型更贴近某类任务或输出风格。
  • 推理阶段不会真正改变模型参数。

深入了解: 模型微调与定制化

Fine-Tuning 在什么业务场景下比直接使用基础模型更合适?

考察角度: 是否能判断微调适用边界。

回答时应该覆盖:

  • 长期重复、格式稳定、样本充足的任务。
  • Prompt 已经很长且规则重复,想降低调用成本。
  • 有稳定评测集证明基础模型仍不够。

深入了解: 模型微调与定制化

LoRA 的基本原理是什么?为什么它适合轻量微调?

考察角度: 是否能解释低秩适配,而不是只说“省显存”。

回答时应该覆盖:

  • LoRA 冻结原模型权重,只训练低秩增量矩阵,用较少参数适配新任务。
  • 它降低训练显存和存储成本,适合开源模型在固定领域或固定风格上的定制。
  • LoRA 仍然需要高质量数据和回归评测,不能替代 RAG 做频繁更新的知识接入。

深入了解: 模型微调与定制化

微调如何处理模型输出重复和幻觉?

考察角度: 是否知道微调不是万能去幻觉工具。

回答时应该覆盖:

  • 高质量样本可以改善固定任务上的输出习惯。
  • 幻觉涉及事实来源时,仍需要 RAG 和工具校验。
  • 评测集要覆盖重复、编造和边界输入。

深入了解: 模型微调与定制化

工程化场景

什么是 GPTCache?

考察角度: 是否理解缓存可以降低成本和延迟。

回答时应该覆盖:

  • 对相同或相似请求复用模型结果。
  • 适合 FAQ、低变化问答和高频相似请求。
  • 要处理缓存过期、命中错误和权限隔离。

深入了解: 性能优化

当大模型 API 响应延迟超过 1 秒时,前端可以怎么优化体验?

考察角度: 是否能从用户体验和系统链路两侧考虑。

回答时应该覆盖:

  • 使用流式输出、加载状态、骨架屏和可取消请求。
  • 后端做缓存、并行准备上下文、减少无关 token。
  • 对长任务展示进度,而不是让用户盲等。

深入了解: 流式输出与 SSE

1000 个用户并发访问,如何分析 LLM 性能瓶颈?

考察角度: 是否能区分吞吐、延迟、排队和 token 生成速度。

回答时应该覆盖:

  • tokens/s 是总吞吐,不等于每个用户都稳定得到同等速度。
  • 输入长度、输出长度、模型并发限制和排队都会影响体验。
  • 可用限流、队列、缓存、模型降级和流式输出缓解。

深入了解: 性能优化

智能客服系统如何通过知识库解决长尾问题?

考察角度: 是否能把 RAG 放进真实产品流程。

回答时应该覆盖:

  • 建知识库、清洗文档、分块、检索和引用来源。
  • 资料不足时转人工或明确拒答。
  • 通过日志持续补充高频未命中问题。

深入了解: RAG 原理

电商系统里哪些功能适合直接用大模型,哪些需要工程化手段?

考察角度: 是否能判断模型和确定性系统的边界。

回答时应该覆盖:

  • 文案生成、摘要、分类可以直接用模型辅助。
  • 价格、库存、支付、退款必须接数据库和业务规则。
  • 高风险动作要人工确认或规则校验。

深入了解: AI 应用系统设计

AI 可参与智能工单分类系统的哪些环节?

考察角度: 是否能拆解 AI 应用开发流程。

回答时应该覆盖:

  • 工单意图分类、信息抽取、优先级判断和回复建议。
  • 结构化输出接入工单系统。
  • 用历史标注数据评测准确率和误分成本。

深入了解: Structured Output

Computer Use 是什么?

考察角度: 是否理解模型操作界面的能力边界。

回答时应该覆盖:

  • 模型通过截图、坐标或可访问树理解界面并执行操作。
  • 适合跨软件自动化,但延迟和误操作风险更高。
  • 需要权限控制、确认机制和操作日志。

深入了解: Agent 基础原理

Copilot 模式和 Agent 模式的区别是什么?

考察角度: 是否能区分辅助建议和自主执行。

回答时应该覆盖:

  • Copilot 更偏人在主导,模型给建议或补全。
  • Agent 会自行规划多步、调用工具并推进任务。
  • Agent 模式更需要权限、终止条件和可回滚设计。

深入了解: Agent 基础原理

当上下文窗口扩展到 100 万 token,哪些场景会变化?

考察角度: 是否能同时看到机会和限制。

回答时应该覆盖:

  • 长文档分析、代码库理解、多轮任务会更方便。
  • 成本、延迟和注意力稀释仍然存在。
  • 大窗口不能替代检索、索引和结构化状态管理。

深入了解: LLM 基础概念

如何设计一个包含上下文约束的代码生成 Prompt?

考察角度: 是否会把需求转成可执行任务描述。

回答时应该覆盖:

  • 技术栈、组件边界、输入输出、验证规则和错误提示。
  • 明确不要改哪些文件或不要引入哪些依赖。
  • 要求输出可运行代码,并说明测试或验收方式。

深入了解: 任务描述模板

面向开发者系统学习 AI 应用开发、RAG、Agent 与 Vibe Coding。