大模型基础面试题

这一页收录的是 AI 应用开发里最常被追问的基础题。回答时不要只背概念，尽量落到工程含义：成本、上下文、可靠性、延迟、评测和安全。

模型基础

Token 是什么？为什么工程上要关心它？

考察角度： 是否知道 token 同时影响成本、延迟和上下文容量。

回答时应该覆盖：

输入、输出、历史消息、工具结果都会计入 token。
token 数越多，成本和延迟通常越高。
RAG、Agent 和长对话都需要控制 token 预算。

深入了解： LLM 基础概念

Context Window 有什么工程含义？

考察角度： 是否理解“放得下”和“放得好”不是一回事。

回答时应该覆盖：

上下文窗口包括系统提示词、用户输入、历史消息和工具结果。
无关内容会稀释注意力，旧内容可能被截断。
需要做上下文选择、压缩和外部状态管理。

深入了解： LLM 基础概念

Temperature 怎么调？

考察角度： 是否知道采样参数和任务类型的关系。

回答时应该覆盖：

低温度更稳定，适合抽取、分类、结构化输出。
高温度更发散，适合创意生成。
Temperature 不是能力升级，只是输出分布控制。

深入了解： LLM 基础概念

大模型的涌现能力是什么？

考察角度： 是否能谨慎解释模型规模和能力表现的关系。

回答时应该覆盖：

某些能力在模型规模、数据和训练方式达到阈值后表现明显提升。
常见例子包括复杂推理、代码生成、多步指令跟随。
工程上不能只靠“涌现”兜底，仍要评测具体任务。

深入了解： LLM 基础概念

Prompt 与结构化输出

有哪些设计和优化 Prompt 的技巧？

考察角度： 是否能把 prompt 当成任务接口来设计。

回答时应该覆盖：

明确角色、目标、输入、输出格式和边界条件。
给少量高质量示例，比堆很多模糊规则更有效。
用评测样本验证 prompt，而不是靠单次感觉。

深入了解： Prompt 工程

提示词模板通常有哪些字段？

考察角度： 是否知道可复用 prompt 需要结构化管理。

回答时应该覆盖：

任务目标、背景上下文、输入变量、输出格式。
约束条件、示例、失败处理和安全规则。
模板版本和评测样本，方便迭代。

深入了解： Prompt 工程

什么是结构化输出？

考察角度： 是否理解结构化输出解决的是可解析性和稳定性。

回答时应该覆盖：

让模型按 JSON、Schema 或固定字段返回。
适合分类、抽取、表单填充和工具参数生成。
需要校验、重试和错误处理。

深入了解： Structured Output

GPT Structured Outputs 和普通 JSON Prompt 有什么区别？

考察角度： 是否知道原生结构化能力比“请输出 JSON”更强。

回答时应该覆盖：

普通 prompt 只是文本约束，可能输出非法 JSON。
原生 Structured Outputs 会按 schema 限制生成空间。
仍然需要业务层校验字段含义。

深入了解： Structured Output

可靠性与安全

幻觉的根本原因是什么？

考察角度： 是否能从生成机制解释不可靠性。

回答时应该覆盖：

模型生成的是高概率文本，不直接验证事实。
上下文不足、问题诱导、检索错误都会放大幻觉。
需要 RAG、工具、引用、校验和评测共同约束。

深入了解： AI 幻觉

医疗问诊系统如何平衡 AI 幻觉风险与效率提升？

考察角度： 是否能把高风险场景里的边界讲清楚。

回答时应该覆盖：

AI 只能做辅助分诊、资料整理或建议，不应直接替代医生诊断。
高风险结论需要引用来源、规则校验和人工确认。
日志、免责声明、权限和应急兜底都要设计。

深入了解： AI 幻觉

什么是护栏技术？

考察角度： 是否知道 Guardrails 是输入输出和流程层的安全控制。

回答时应该覆盖：

输入过滤、输出校验、敏感内容拦截和权限判断。
高风险动作前暂停确认。
护栏不能只靠一个安全 prompt。

深入了解： Prompt Injection 与 AI 安全

Prompt Injection 为什么危险？

考察角度： 是否理解外部内容可能影响模型行为。

回答时应该覆盖：

用户输入、网页、文档都可能携带恶意指令。
Agent 读取外部资料后可能被诱导调用工具或泄露信息。
要做指令隔离、工具权限限制和结果过滤。

深入了解： Prompt Injection 与 AI 安全

RAG、微调与选型

为什么 RAG 比微调更适合知识接入？

考察角度： 是否能区分推理时注入知识和改模型参数。

回答时应该覆盖：

RAG 适合最新资料、私有文档和可追溯引用。
微调更适合输出风格、固定任务和行为偏好。
知识频繁更新时微调成本高、验证慢。

深入了解： RAG 原理

什么是大模型微调？与预训练的核心区别是什么？

考察角度： 是否知道预训练、微调和推理的层级差异。

回答时应该覆盖：

预训练学习通用语言和知识分布。
微调让模型更贴近某类任务或输出风格。
推理阶段不会真正改变模型参数。

深入了解： 模型微调与定制化

Fine-Tuning 在什么业务场景下比直接使用基础模型更合适？

考察角度： 是否能判断微调适用边界。

回答时应该覆盖：

长期重复、格式稳定、样本充足的任务。
Prompt 已经很长且规则重复，想降低调用成本。
有稳定评测集证明基础模型仍不够。

深入了解： 模型微调与定制化

LoRA 的基本原理是什么？为什么它适合轻量微调？

考察角度： 是否能解释低秩适配，而不是只说“省显存”。

回答时应该覆盖：

LoRA 冻结原模型权重，只训练低秩增量矩阵，用较少参数适配新任务。
它降低训练显存和存储成本，适合开源模型在固定领域或固定风格上的定制。
LoRA 仍然需要高质量数据和回归评测，不能替代 RAG 做频繁更新的知识接入。

深入了解： 模型微调与定制化

微调如何处理模型输出重复和幻觉？

考察角度： 是否知道微调不是万能去幻觉工具。

回答时应该覆盖：

高质量样本可以改善固定任务上的输出习惯。
幻觉涉及事实来源时，仍需要 RAG 和工具校验。
评测集要覆盖重复、编造和边界输入。

深入了解： 模型微调与定制化

工程化场景

什么是 GPTCache？

考察角度： 是否理解缓存可以降低成本和延迟。

回答时应该覆盖：

对相同或相似请求复用模型结果。
适合 FAQ、低变化问答和高频相似请求。
要处理缓存过期、命中错误和权限隔离。

深入了解： 性能优化

当大模型 API 响应延迟超过 1 秒时，前端可以怎么优化体验？

考察角度： 是否能从用户体验和系统链路两侧考虑。

回答时应该覆盖：

使用流式输出、加载状态、骨架屏和可取消请求。
后端做缓存、并行准备上下文、减少无关 token。
对长任务展示进度，而不是让用户盲等。

深入了解： 流式输出与 SSE

1000 个用户并发访问，如何分析 LLM 性能瓶颈？

考察角度： 是否能区分吞吐、延迟、排队和 token 生成速度。

回答时应该覆盖：

tokens/s 是总吞吐，不等于每个用户都稳定得到同等速度。
输入长度、输出长度、模型并发限制和排队都会影响体验。
可用限流、队列、缓存、模型降级和流式输出缓解。

深入了解： 性能优化

智能客服系统如何通过知识库解决长尾问题？

考察角度： 是否能把 RAG 放进真实产品流程。

回答时应该覆盖：

建知识库、清洗文档、分块、检索和引用来源。
资料不足时转人工或明确拒答。
通过日志持续补充高频未命中问题。

深入了解： RAG 原理

电商系统里哪些功能适合直接用大模型，哪些需要工程化手段？

考察角度： 是否能判断模型和确定性系统的边界。

回答时应该覆盖：

文案生成、摘要、分类可以直接用模型辅助。
价格、库存、支付、退款必须接数据库和业务规则。
高风险动作要人工确认或规则校验。

深入了解： AI 应用系统设计

AI 可参与智能工单分类系统的哪些环节？

考察角度： 是否能拆解 AI 应用开发流程。

回答时应该覆盖：

工单意图分类、信息抽取、优先级判断和回复建议。
结构化输出接入工单系统。
用历史标注数据评测准确率和误分成本。

深入了解： Structured Output

Computer Use 是什么？

考察角度： 是否理解模型操作界面的能力边界。

回答时应该覆盖：

模型通过截图、坐标或可访问树理解界面并执行操作。
适合跨软件自动化，但延迟和误操作风险更高。
需要权限控制、确认机制和操作日志。

深入了解： Agent 基础原理

Copilot 模式和 Agent 模式的区别是什么？

考察角度： 是否能区分辅助建议和自主执行。

回答时应该覆盖：

Copilot 更偏人在主导，模型给建议或补全。
Agent 会自行规划多步、调用工具并推进任务。
Agent 模式更需要权限、终止条件和可回滚设计。

深入了解： Agent 基础原理

当上下文窗口扩展到 100 万 token，哪些场景会变化？

考察角度： 是否能同时看到机会和限制。

回答时应该覆盖：

长文档分析、代码库理解、多轮任务会更方便。
成本、延迟和注意力稀释仍然存在。
大窗口不能替代检索、索引和结构化状态管理。

深入了解： LLM 基础概念

如何设计一个包含上下文约束的代码生成 Prompt？

考察角度： 是否会把需求转成可执行任务描述。

回答时应该覆盖：

技术栈、组件边界、输入输出、验证规则和错误提示。
明确不要改哪些文件或不要引入哪些依赖。
要求输出可运行代码，并说明测试或验收方式。

深入了解： 任务描述模板

大模型基础面试题 ​

模型基础 ​

Token 是什么？为什么工程上要关心它？ ​

Context Window 有什么工程含义？ ​

Temperature 怎么调？ ​

大模型的涌现能力是什么？ ​

Prompt 与结构化输出 ​

有哪些设计和优化 Prompt 的技巧？ ​

提示词模板通常有哪些字段？ ​

什么是结构化输出？ ​

GPT Structured Outputs 和普通 JSON Prompt 有什么区别？ ​

可靠性与安全 ​

幻觉的根本原因是什么？ ​

医疗问诊系统如何平衡 AI 幻觉风险与效率提升？ ​

什么是护栏技术？ ​

Prompt Injection 为什么危险？ ​

RAG、微调与选型 ​

为什么 RAG 比微调更适合知识接入？ ​

什么是大模型微调？与预训练的核心区别是什么？ ​

Fine-Tuning 在什么业务场景下比直接使用基础模型更合适？ ​

LoRA 的基本原理是什么？为什么它适合轻量微调？ ​

微调如何处理模型输出重复和幻觉？ ​

工程化场景 ​

什么是 GPTCache？ ​

当大模型 API 响应延迟超过 1 秒时，前端可以怎么优化体验？ ​

1000 个用户并发访问，如何分析 LLM 性能瓶颈？ ​

智能客服系统如何通过知识库解决长尾问题？ ​

电商系统里哪些功能适合直接用大模型，哪些需要工程化手段？ ​

AI 可参与智能工单分类系统的哪些环节？ ​

Computer Use 是什么？ ​

Copilot 模式和 Agent 模式的区别是什么？ ​

当上下文窗口扩展到 100 万 token，哪些场景会变化？ ​

如何设计一个包含上下文约束的代码生成 Prompt？ ​

大模型基础面试题

模型基础

Token 是什么？为什么工程上要关心它？

Context Window 有什么工程含义？

Temperature 怎么调？

大模型的涌现能力是什么？

Prompt 与结构化输出

有哪些设计和优化 Prompt 的技巧？

提示词模板通常有哪些字段？

什么是结构化输出？

GPT Structured Outputs 和普通 JSON Prompt 有什么区别？

可靠性与安全

幻觉的根本原因是什么？

医疗问诊系统如何平衡 AI 幻觉风险与效率提升？

什么是护栏技术？

Prompt Injection 为什么危险？

RAG、微调与选型

为什么 RAG 比微调更适合知识接入？

什么是大模型微调？与预训练的核心区别是什么？

Fine-Tuning 在什么业务场景下比直接使用基础模型更合适？

LoRA 的基本原理是什么？为什么它适合轻量微调？

微调如何处理模型输出重复和幻觉？

工程化场景

什么是 GPTCache？

当大模型 API 响应延迟超过 1 秒时，前端可以怎么优化体验？

1000 个用户并发访问，如何分析 LLM 性能瓶颈？

智能客服系统如何通过知识库解决长尾问题？

电商系统里哪些功能适合直接用大模型，哪些需要工程化手段？

AI 可参与智能工单分类系统的哪些环节？

Computer Use 是什么？

Copilot 模式和 Agent 模式的区别是什么？

当上下文窗口扩展到 100 万 token，哪些场景会变化？

如何设计一个包含上下文约束的代码生成 Prompt？