上下文工程: 大语言模型的新范式

2025-07-26 01:10:48
697

大语言模型不止靠参数“大”，更靠“上下文”聪明。本文系统性拆解上下文工程的设计逻辑与调用策略，从提示构造、状态保持到信息注入，揭示当下LLM开发正从模型调参，走向“上下文编排”的工程新范式。

论文导读：

《ASurveyofContextEngineeringforLargeLanguageModels》（大型语言模型上下文工程综述）是一篇非常全面的学术论文，提出[上下文工程]这一全新的概念来统一我们与AI交互的各种高级方法。

本文将为你拆解这篇论文的结构，并用通俗易懂的方式把它“教”给你，希望可以从中获得启发，帮我们更好的构建设计自己的AI产品。

总结一下，这篇论文对AI产品经理的整体启发是：

我们的角色正在从一个“功能设计师”演变为一个“AI系统架构师”和“信息生态的构建者”。需要用更宏观、更系统的视角去思考产品的形态、价值和边界，交付物将从“需求文档”扩展为包含上下文策略、处理规范和多维度评估体系的“产品白皮书”。

核心思想：从“提示工程”到“上下文工程”

你可能很熟悉“提示词工程”（PromptEngineering）。你可以给大模型下达一个具体的指令。比如：“请帮我总结一下这份报告。”

但这篇论文说，我们现在与AI的交互已经远远超出了“下达一个指令”的范畴。我们不再只是给AI一个简单的文本提示，而是为它构建了一个完整的信息生态系统。

举个例子：

1）提示工程：给实习生一张写着任务的便条。

2）上下文工程：为这位实习生配备一个完整的办公室！这包括：

一个图书馆（外部知识库，比如维基百科或公司内部文档）。

一部可以随时上网的手机（外部工具，比如搜索引擎、计算器）。

一个记忆笔记本（长期和短期记忆系统）。

一本工作手册（系统指令和规则）。

甚至一个可以协同工作的团队（其他AI智能体）。

“上下文工程”（ContextEngineering）就是这篇论文提出的核心概念：它是一门研究如何系统性地设计、管理和优化所有这些提供给AI的“信息装备”，从而让AI发挥出最大潜能的正式学科。

论文的整体结构：四步走

这篇论文把“上下文工程”分成了四个主要部分，循序渐进：

第一部分：基础组件(FoundationalComponents)–AI办公室里的“基础设备”是什么，以及如何准备它们。

第二部分：系统实现(SystemImplementations)–如何把这些基础设备组装成强大的“高级工作站”。

第三部分：评估(Evaluation)–如何衡量这位装备齐全的“超级实习生”工作得好不好。

第四部分：未来方向(FutureDirections)–这门科学未来会遇到哪些挑战，又有哪些激动人心的可能性。

第一部分：基础组件(TheBuildingBlocks)

这一部分是上下文工程的基石，它探讨了我们为AI准备信息时要做的三件核心事情：

获取信息、处理信息、管理信息。

1.上下文的检索与生成(ContextRetrievalandGeneration)–“寻找和准备材料”

这是第一步，确保AI有正确的材料来完成任务。它包括三个方面：

提示工程与上下文生成：这是我们最熟悉的领域，即如何写出清晰、有效的指令。论文提到了一些高级技巧，比如“思维链”（Chain-of-Thought），就是教AI像人一样“一步一步地思考”，而不是直接给出答案。后来还发展出了更复杂的“思维树”（Tree-of-Thoughts）和“思维图”（Graph-of-Thoughts），让AI能够探索多种推理路径，就像画思维导图一样。

外部知识检索：AI模型内部的知识是有限的，而且可能过时。这一步就是让AI能够从外部获取最新的、特定的知识。最核心的技术叫做检索增强生成(RAG)，你可以理解为AI在回答问题前，先去一个巨大的数据库（比如百度百科）里搜索相关的资料，然后结合这些资料来生成答案。

动态上下文组装：把上面获取到的所有信息（指令、外部知识、用户问题等）巧妙地组合在一起，形成一个最终的、最优化的“信息包”喂给AI。

2.上下文处理(ContextProcessing)–“编辑和整理材料”

拿到了原始材料后，还需要进行处理，让它们更容易被AI理解和使用。

长上下文处理：AI的“注意力”是有限的，一次能处理的信息长度（即“上下文窗口”）有限。当面对一本很厚的书或一份超长的报告时，AI很容易“读到后面忘了前面”，这被称为“迷失在中间”现象(lost-in-the-middle)。这个领域的研究就是为了解决这个问题，比如通过架构创新或优化注意力机制，让AI能处理上百万字的超长文本。

上下文自我优化和适应：让AI变得更“聪明”，能够自己检查和修改自己的答案。比如“Self-Refine”框架，就是让AI生成答案后，自己扮演批评家的角色，提出修改意见，然后再根据意见进行修改，如此循环，直到答案变得更好。

多模态及结构化上下文：除了纯文本，AI还需要理解图片、音频、视频，甚至是表格和知识图谱这样的结构化数据。这个部分就是研究如何将这些不同类型的信息转换并整合到AI的上下文中。

3.上下文管理(ContextManagement)–“归档和压缩材料”

AI的“办公桌”（上下文窗口）是有限的，所以必须高效地管理信息。

基本约束：首先要认识到AI有“上下文窗口大小”这个根本限制，它既影响性能，也带来巨大的计算成本。

记忆层次与存储架构：为AI建立像电脑一样的记忆系统，分为快速读取但容量小的“短期记忆”（在上下文窗口内）和容量大但读取稍慢的“长期记忆”（存储在外部数据库中）。

上下文压缩：顾名思义，就是把信息“压缩”一下，用更少的文字表达同样多的信息，这样就能在有限的“办公桌”上放下更多东西。

第二部分：系统实现(SystemImplementations)

学习了基础组件后，这一部分将展示如何将它们组装成先进的AI系统，真正解决现实世界的问题。

1.检索增强生成系统(RAG)–“为AI配一个超级图书馆”

这是最主流的应用之一，核心是连接外部知识。

模块化RAG：把RAG系统设计得像乐高积木一样，可以灵活地替换和组合不同的检索、生成模块，以适应不同任务。

智能体RAG(AgenticRAG)：这是一种更高级的RAG。普通的RAG是被动地“先搜后答”，而AgenticRAG中的AI会像一个侦探一样，主动思考“我需要什么信息？”、“我应该去哪里搜？”，然后自主地执行检索操作。

图增强RAG：使用“知识图谱”这种网络状的结构化知识来代替纯文本数据库。这样做的好处是信息之间的关联性更强，AI可以进行更复杂的“多跳推理”，比如从“A认识B”和“B认识C”推断出A和C的间接关系。

2.记忆系统(MemorySystems)–“为AI装上大脑”

这个系统致力于解决AI“健忘”的问题，让它能记住过去的对话和经验。通过构建短期和长期记忆机制，AI可以进行持续性的、个性化的互动，而不会在每次对话时都像一个“失忆的陌生人”。

3.工具集成推理(Tool-IntegratedReasoning)–“为AI配一个工具箱”

这让AI不再只是一个“聊天机器人”，而是一个可以与世界互动的“行动者”。

函数调用(FunctionCalling)：这是实现工具集成的核心机制。AI可以生成一段特定格式的指令（比如JSON），来调用外部的应用程序接口（API），比如查询天气、订机票、控制智能家居等。这标志着AI从一个“文本生成器”向一个“世界交互器”的转变。

4.多智能体系统(Multi-AgentSystems)–“为AI组建一个团队”

这是目前最前沿、最复杂的系统。它不是让一个AI单打独斗，而是让多个拥有不同专长和角色的AI智能体协同工作，解决单个AI无法完成的复杂任务。

通信协议：为了让AI们能够有效沟通，需要制定一套统一的“语言”和“规则”，就像人类开会需要遵循议程一样。

编排机制(Orchestration)：需要一个“项目经理”角色的AI来分解任务、分配工作、协调进度，确保整个团队高效运作。

第三部分：评估(Evaluation)

有了这些强大的系统，我们如何客观地评价它的好坏？这是一个巨大的挑战。传统的AI评估指标（如准确率）已经不够用了。

评估的复杂性：我们需要评估的不再是单一任务的成败，而是整个系统的推理过程、工具使用是否合理、记忆是否准确、团队协作是否高效。

新的评估基准：论文提到了一系列新的、更贴近现实世界的评估基准（Benchmarks），比如WebArena（评估AI操作网页的能力）、GAIA（评估通用AI助手的能力）等。

性能差距：评估结果显示，尽管这些系统很强大，但在许多真实世界的复杂任务上，它们与人类的表现仍有巨大差距。

第四部分：未来方向与结论

最后，论文展望了未来，并指出了一个核心的、根本性的挑战。

最大的挑战：理解与生成的不对称性(Comprehension-GenerationAsymmetry)

这是整篇论文最深刻的洞见之一，论文指出，当前的AI模型，在先进的上下文工程加持下，理解复杂信息的能力非常强（比如读懂一份上千页的财报），但生成同样复杂的长篇输出的能力却非常有限（比如让它自己写一份上千页的、逻辑严密、事实准确的财报）。这个“理解强，生成弱”的不对称性，是未来研究需要攻克的关键难题。

结论

“上下文工程”将AI研究的焦点从简单地“设计提示词”转向了系统性地“设计信息后勤系统”。它提供了一个统一的框架，帮助我们理解和构建下一代更强大、更可靠、更能解决实际问题的AI系统。

启发

未来AI产品经理的工作，将从传统的“功能设计”系统性地转向“上下文生态设计”。这篇论文可以被看作是下一代AI产品经理的“工作手册”。

核心职责的转变：从定义“功能”到定义“上下文”

过去，PM定义的是“用户点击这个按钮会发生什么”。现在，PM的核心工作之一是定义AI完成任务所需的完整“信息装备”。

定义上下文的构成要素：PM需要像设计产品功能列表一样，设计产品的“上下文清单”。这包括：

系统指令：产品的核心定位、行为准则和个性是什么？

外部知识：产品需要连接哪些数据库或知识库？是需要实时新闻，还是公司内部的保密文档？

可用工具：产品需要具备哪些“超能力”？是需要调用计算器、搜索引擎，还是接入公司内部的审批API？

记忆：产品需要“记住”用户多久？是仅限于单次对话的短期记忆，还是需要跨越数周乃至数月的长期个性化记忆？这对用户体验至关重要。

动态状态：产品需要感知哪些动态变化？比如用户的情绪状态、团队协作

衡量标准的重塑：从“功能可用”到“系统可靠”

论文用整整一章（第6章）来探讨“评估”（Evaluation）的复杂性，这对PM如何定义产品成功至关重要。

定义更复杂的KPIs：过去，PM可能只关心功能的点击率或任务成功率。现在，需要定义更深层次的、面向过程的指标。论文指出，评估需要深入到组件层面和系统层面。例如：

检索质量：RAG系统检索到的信息相关性、准确性如何？

工具使用效率：AI是否在最合适的时机调用了最合适的工具？

记忆保真度：AI的长期记忆是否会出错或“遗忘”关键信息？

协作效率：在多智能体系统中，AI之间的沟通成本和协作效果如何

十大巅峰重生修仙小说发布网,提供十大巅峰重生修仙小说发布信息,第一时间发布列表及资讯,重生修仙小说是重生修仙小说首选资讯平台。